arXiv

Використання мультимодальних LLMs для оцінки характеристик антропогенного середовища та житла із зображень Street View

Зосереджено на використанні мультимодальних LLMs для оцінки характеристик антропогенного середовища та житла за зображеннями Street View.

arXiv|Apr 21, 2026|1 min read

Open original

At a glance

Source: arXiv
Published: Apr 21, 2026
Read time: 1 min read
Primary lane: Computer Vision

Computer Vision AI Transformers Model Efficiency

Quick read

4 bullets

Зосереджено на використанні мультимодальних LLMs для оцінки характеристик антропогенного середовища та житла за зображеннями Street View.
Ми представляємо нову структуру для автоматичної оцінки умов будівництва по всій країні в Сполучених Штатах, використовуючи великі мовні моделі (LLM) і зображення Google Street View (GSV).
Шляхом точного налаштування Gemma 3 27B на скромному наборі даних, позначених людиною, наш підхід досягає чіткої відповідності із середніми оцінками людської думки (MOS), перевершуючи навіть окремих оцінювачів на SRCC і PLCC порівняно з MOS...
Ефективність роботи має значення, коли вона змінює пакет розгортання, а не скорочує контрольний показник. Нижча затримка, менша пам’ять і краще масштабування поєднуються між навчанням і обслуговуванням, де відбувається впровадження.

Чому це важливо

✦

Ефективність роботи має значення, коли вона змінює пакет розгортання, а не скорочує контрольний показник. Нижча затримка, менша пам’ять і краще масштабування поєднуються між навчанням і обслуговуванням, де відбувається впровадження.

Builder takeaway

arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Швидке читання

- Зосереджено на використанні мультимодальних LLMs для оцінки характеристик антропогенного середовища та житла за зображеннями Street View.

- Ми представляємо нову структуру для автоматичної оцінки умов будівництва по всій країні в Сполучених Штатах, використовуючи великі мовні моделі (LLM) і зображення Google Street View (GSV).

- Шляхом точного налаштування Gemma 3 27B на скромному наборі даних, позначених людиною, наш підхід досягає чіткої відповідності із середніми оцінками людської думки (MOS), перевершуючи навіть окремих оцінювачів на SRCC і PLCC порівняно з MOS...

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive