Масковане моделювання для відновлення руху людини під оклюзіями

Quick read

1 bullets

Реконструкція руху людини з монокулярних відео є фундаментальною проблемою для комп’ютерного зору, із широким застосуванням у AR/VR, робототехніці та створенні цифрового контенту, але залишається складною за частих оклюзій у реальних умовах. Існуючі методи на основі регресії є ефективними, але крихкими до відсутніх спостережень, тоді як підходи на основі оптимізації та дифузії покращують надійність ціною низької швидкості логічного висновку та важких етапів попередньої обробки.Щоб усунути ці обмеження, ми використовуємо останні досягнення в генеративному маскованому моделюванні та представляємо MoRo: масковане моделювання для відновлення рухів людини під оклюзіями.MoRo — це стійка до оклюзії наскрізна генеруюча структура, яка формулює реконструкцію руху як завдання, обумовлене відео, і ефективно відновлює рух людини в узгодженій глобальній системі координат із відео RGB.Завдяки маскованому моделюванню MoRo природно обробляє оклюзії, забезпечуючи ефективний наскрізний висновок.Щоб подолати дефіцит парних даних відео-руху, ми розробили схему крос-модальності навчання, яка вивчає мультимодальні пріоритети з набору гетерогенних наборів даних: (i) рух із інформуванням про траєкторію, попередньо навчений на наборах даних MoCap, (ii) поза, обумовлена зображенням, попередньо навчена на наборах даних поз зображення, що фіксує різноманітні пози за кадр, і (iii)маскований трансформатор із відеокондиціонуванням, який об’єднує рух і попередні позиції, точно налаштований на наборах даних відеоруху для інтеграції візуальних підказок із динамікою руху для надійного висновку.Масштабні експерименти на EgoBody та RICH демонструють, що MoRo значно перевершує найсучасніші методи в точності та реалістичності руху під оклюзіями, водночас показуючи однакові показники в сценаріях без оклюзії.MoRo досягає висновків у реальному часі зі швидкістю 70 FPS на одному GPU H200.

Чому це важливо

✦

Реконструкція руху людини з монокулярних відео є фундаментальною проблемою для комп’ютерного зору, із широким застосуванням у AR/VR, робототехніці та створенні цифрового контенту, але залишається складною за частих оклюзій у реальних умовах. Існуючі методи на основі регресії є ефективними, але крихкими до відсутніх спостережень, тоді як підходи на основі оптимізації та дифузії покращують надійність ціною низької швидкості логічного висновку та важких етапів попередньої обробки.Щоб усунути ці обмеження, ми використовуємо останні досягнення в генеративному маскованому моделюванні та представляємо MoRo: масковане моделювання для відновлення рухів людини під оклюзіями.MoRo — це стійка до оклюзії наскрізна генеруюча структура, яка формулює реконструкцію руху як завдання, обумовлене відео, і ефективно відновлює рух людини в узгодженій глобальній системі координат із відео RGB.Завдяки маскованому моделюванню MoRo природно обробляє оклюзії, забезпечуючи ефективний наскрізний висновок.Щоб подолати дефіцит парних даних відео-руху, ми розробили схему крос-модальності навчання, яка вивчає мультимодальні пріоритети з набору гетерогенних наборів даних: (i) рух із інформуванням про траєкторію, попередньо навчений на наборах даних MoCap, (ii) поза, обумовлена зображенням, попередньо навчена на наборах даних поз зображення, що фіксує різноманітні пози за кадр, і (iii)маскований трансформатор із відеокондиціонуванням, який об’єднує рух і попередні позиції, точно налаштований на наборах даних відеоруху для інтеграції візуальних підказок із динамікою руху для надійного висновку.Масштабні експерименти на EgoBody та RICH демонструють, що MoRo значно перевершує найсучасніші методи в точності та реалістичності руху під оклюзіями, водночас показуючи однакові показники в сценаріях без оклюзії.MoRo досягає висновків у реальному часі зі швидкістю 70 FPS на одному GPU H200.

Builder takeaway

arXiv published this update in the Cs.cv lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Реконструкція руху людини з монокулярних відео є фундаментальною проблемою для комп’ютерного зору, із широким застосуванням у AR/VR, робототехніці та створенні цифрового контенту, але залишається складною за частих оклюзій у реальних умовах. Існуючі методи на основі регресії є ефективними, але крихкими до відсутніх спостережень, тоді як підходи на основі оптимізації та дифузії покращують надійність ціною низької швидкості логічного висновку та важких етапів попередньої обробки.Щоб усунути ці обмеження, ми використовуємо останні досягнення в генеративному маскованому моделюванні та представляємо MoRo: масковане моделювання для відновлення рухів людини під оклюзіями.MoRo — це стійка до оклюзії наскрізна генеруюча структура, яка формулює реконструкцію руху як завдання, обумовлене відео, і ефективно відновлює рух людини в узгодженій глобальній системі координат із відео RGB.Завдяки маскованому моделюванню MoRo природно обробляє оклюзії, забезпечуючи ефективний наскрізний висновок.Щоб подолати дефіцит парних даних відео-руху, ми розробили схему крос-модальності навчання, яка вивчає мультимодальні пріоритети з набору гетерогенних наборів даних: (i) рух із інформуванням про траєкторію, попередньо навчений на наборах даних MoCap, (ii) поза, обумовлена зображенням, попередньо навчена на наборах даних поз зображення, що фіксує різноманітні пози за кадр, і (iii)маскований трансформатор із відеокондиціонуванням, який об’єднує рух і попередні позиції, точно налаштований на наборах даних відеоруху для інтеграції візуальних підказок із динамікою руху для надійного висновку.Масштабні експерименти на EgoBody та RICH демонструють, що MoRo значно перевершує найсучасніші методи в точності та реалістичності руху під оклюзіями, водночас показуючи однакові показники в сценаріях без оклюзії.MoRo досягає висновків у реальному часі зі швидкістю 70 FPS на одному GPU H200.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive