arXiv

Використання мультимодальних LLMs для оцінки характеристик антропогенного середовища та житла із зображень Street View

Зосереджено на використанні мультимодальних LLMs для оцінки характеристик антропогенного середовища та житла за зображеннями Street View.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Apr 21, 2026
Read time
1 min read
Primary lane
Computer Vision

Quick read

4 bullets
  • Зосереджено на використанні мультимодальних LLMs для оцінки характеристик антропогенного середовища та житла за зображеннями Street View.
  • Ми представляємо нову структуру для автоматичної оцінки умов будівництва по всій країні в Сполучених Штатах, використовуючи великі мовні моделі (LLM) і зображення Google Street View (GSV).
  • Шляхом точного налаштування Gemma 3 27B на скромному наборі даних, позначених людиною, наш підхід досягає чіткої відповідності із середніми оцінками людської думки (MOS), перевершуючи навіть окремих оцінювачів на SRCC і PLCC порівняно з MOS...
  • Ефективність роботи має значення, коли вона змінює пакет розгортання, а не скорочує контрольний показник. Нижча затримка, менша пам’ять і краще масштабування поєднуються між навчанням і обслуговуванням, де відбувається впровадження.

Чому це важливо

Ефективність роботи має значення, коли вона змінює пакет розгортання, а не скорочує контрольний показник. Нижча затримка, менша пам’ять і краще масштабування поєднуються між навчанням і обслуговуванням, де відбувається впровадження.

Builder takeaway

arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Швидке читання

- Зосереджено на використанні мультимодальних LLMs для оцінки характеристик антропогенного середовища та житла за зображеннями Street View.

- Ми представляємо нову структуру для автоматичної оцінки умов будівництва по всій країні в Сполучених Штатах, використовуючи великі мовні моделі (LLM) і зображення Google Street View (GSV).

- Шляхом точного налаштування Gemma 3 27B на скромному наборі даних, позначених людиною, наш підхід досягає чіткої відповідності із середніми оцінками людської думки (MOS), перевершуючи навіть окремих оцінювачів на SRCC і PLCC порівняно з MOS...

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.