TwinBrainVLA: Розкриття потенціалу універсальних VLM для втілених завдань за допомогою асиметричної суміші трансформаторів

Quick read

1 bullets

Стандартні моделі Vision-Language-Action (VLA) зазвичай точно налаштовують монолітну основу моделі бачення мови (VLM) явно для роботизованого управління. Однак цей підхід створює критичну напругу між підтриманням загального семантичного розуміння високого рівня та вивченням низькорівневих тонкозернистих сенсомоторних навичок, що часто призводить до «катастрофічного забуття» можливостей моделі у відкритому світі. Щоб вирішити цей конфлікт, ми представляємо TwinBrainVLA, нову архітектуру, яка координує загальний VLM, що зберігає універсальне семантичне розуміння, та спеціалізований VLM, присвячений втіленій пропріоцепції для спільного роботизованого управління. TwinBrainVLA синергізує заморожений «Лівий мозок», який зберігає надійні загальні візуальні міркування, з тренуваним «Правим мозком», що спеціалізується на втіленому сприйнятті, за допомогою нового механізму асиметричної суміші трансформаторів (Asymot). Ця конструкція дозволяє правому мозку динамічно запитувати семантичні знання із замороженого лівого мозку та зливати їх із пропріоцептивними станами, забезпечуючи багату кондицію для експерта з узгодження потоків для створення точних безперервних елементів керування. Широкі експерименти з еталонами SimpleRenv та RoboCasa демонструють, що TwinBrainVLA досягає чудових показників маніпулювання порівняно з найсучаснішими базовими лініями, явно зберігаючи всебічні можливості візуального розуміння попередньо навченого VLM, пропонуючи перспективний напрямок для створення роботів загального призначення, які одночасно досягають семантичного розуміння високого рівня та фізичної спритності низького рівня.

Чому це важливо

✦

Стандартні моделі Vision-Language-Action (VLA) зазвичай точно налаштовують монолітну основу моделі бачення мови (VLM) явно для роботизованого управління. Однак цей підхід створює критичну напругу між підтриманням загального семантичного розуміння високого рівня та вивченням низькорівневих тонкозернистих сенсомоторних навичок, що часто призводить до «катастрофічного забуття» можливостей моделі у відкритому світі. Щоб вирішити цей конфлікт, ми представляємо TwinBrainVLA, нову архітектуру, яка координує загальний VLM, що зберігає універсальне семантичне розуміння, та спеціалізований VLM, присвячений втіленій пропріоцепції для спільного роботизованого управління. TwinBrainVLA синергізує заморожений «Лівий мозок», який зберігає надійні загальні візуальні міркування, з тренуваним «Правим мозком», що спеціалізується на втіленому сприйнятті, за допомогою нового механізму асиметричної суміші трансформаторів (Asymot). Ця конструкція дозволяє правому мозку динамічно запитувати семантичні знання із замороженого лівого мозку та зливати їх із пропріоцептивними станами, забезпечуючи багату кондицію для експерта з узгодження потоків для створення точних безперервних елементів керування. Широкі експерименти з еталонами SimpleRenv та RoboCasa демонструють, що TwinBrainVLA досягає чудових показників маніпулювання порівняно з найсучаснішими базовими лініями, явно зберігаючи всебічні можливості візуального розуміння попередньо навченого VLM, пропонуючи перспективний напрямок для створення роботів загального призначення, які одночасно досягають семантичного розуміння високого рівня та фізичної спритності низького рівня.

Builder takeaway

arXiv published this update in the Robotics lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Стандартні моделі Vision-Language-Action (VLA) зазвичай точно налаштовують монолітну основу моделі бачення мови (VLM) явно для роботизованого управління. Однак цей підхід створює критичну напругу між підтриманням загального семантичного розуміння високого рівня та вивченням низькорівневих тонкозернистих сенсомоторних навичок, що часто призводить до «катастрофічного забуття» можливостей моделі у відкритому світі. Щоб вирішити цей конфлікт, ми представляємо TwinBrainVLA, нову архітектуру, яка координує загальний VLM, що зберігає універсальне семантичне розуміння, та спеціалізований VLM, присвячений втіленій пропріоцепції для спільного роботизованого управління. TwinBrainVLA синергізує заморожений «Лівий мозок», який зберігає надійні загальні візуальні міркування, з тренуваним «Правим мозком», що спеціалізується на втіленому сприйнятті, за допомогою нового механізму асиметричної суміші трансформаторів (Asymot). Ця конструкція дозволяє правому мозку динамічно запитувати семантичні знання із замороженого лівого мозку та зливати їх із пропріоцептивними станами, забезпечуючи багату кондицію для експерта з узгодження потоків для створення точних безперервних елементів керування. Широкі експерименти з еталонами SimpleRenv та RoboCasa демонструють, що TwinBrainVLA досягає чудових показників маніпулювання порівняно з найсучаснішими базовими лініями, явно зберігаючи всебічні можливості візуального розуміння попередньо навченого VLM, пропонуючи перспективний напрямок для створення роботів загального призначення, які одночасно досягають семантичного розуміння високого рівня та фізичної спритності низького рівня.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive