FastGHA: Узагальнені 3D-аватари голови Гауса з кількома знімками з анімацією в режимі реального часу

Quick read

1 bullets

Незважаючи на недавній прогрес у 3D-моделюванні аватарки голови на основі гаусса, ефективне створення аватарів високої точності залишається проблемою. Сучасні методи зазвичай покладаються на широкі налаштування зйомки з кількома переглядами або монокулярні відео з оптимізацією за ідентифікацією під час висновку, обмежуючи їх масштабованість та простоту використання на невидимих об'єктах. Щоб подолати ці недоліки ефективності, ми пропонуємо\ OURS, метод подачі вперед для створення високоякісних аватарів голови Гауса лише з кількох вхідних зображень, підтримуючи анімацію в режимі реального часу. Наш підхід безпосередньо вивчає уявлення Гауса на піксель із вхідних зображень та агрегує інформацію з кількома переглядами за допомогою кодера на основі трансформатора, який поєднує функції зображення як з DinoV3, так і зі стабільною дифузією VAE. Для анімації в режимі реального часу ми розширюємо явні гаусові уявлення за допомогою особливостей за гаусса та впроваджуємо легку динамічну мережу на основі MLP для прогнозування 3D-гаусових деформацій з кодів виразів. Крім того, щоб підвищити геометричну гладкість 3D-головки, ми використовуємо точкові карти з попередньо навченої великої моделі реконструкції як нагляд за геометрією. Експерименти показують, що наш підхід значно перевершує існуючі методи як за якістю візуалізації, так і за ефективністю висновків, підтримуючи динамічну анімацію аватара в режимі реального часу.

Чому це важливо

✦

Незважаючи на недавній прогрес у 3D-моделюванні аватарки голови на основі гаусса, ефективне створення аватарів високої точності залишається проблемою. Сучасні методи зазвичай покладаються на широкі налаштування зйомки з кількома переглядами або монокулярні відео з оптимізацією за ідентифікацією під час висновку, обмежуючи їх масштабованість та простоту використання на невидимих об'єктах. Щоб подолати ці недоліки ефективності, ми пропонуємо\ OURS, метод подачі вперед для створення високоякісних аватарів голови Гауса лише з кількох вхідних зображень, підтримуючи анімацію в режимі реального часу. Наш підхід безпосередньо вивчає уявлення Гауса на піксель із вхідних зображень та агрегує інформацію з кількома переглядами за допомогою кодера на основі трансформатора, який поєднує функції зображення як з DinoV3, так і зі стабільною дифузією VAE. Для анімації в режимі реального часу ми розширюємо явні гаусові уявлення за допомогою особливостей за гаусса та впроваджуємо легку динамічну мережу на основі MLP для прогнозування 3D-гаусових деформацій з кодів виразів. Крім того, щоб підвищити геометричну гладкість 3D-головки, ми використовуємо точкові карти з попередньо навченої великої моделі реконструкції як нагляд за геометрією. Експерименти показують, що наш підхід значно перевершує існуючі методи як за якістю візуалізації, так і за ефективністю висновків, підтримуючи динамічну анімацію аватара в режимі реального часу.

Builder takeaway

arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Незважаючи на недавній прогрес у 3D-моделюванні аватарки голови на основі гаусса, ефективне створення аватарів високої точності залишається проблемою. Сучасні методи зазвичай покладаються на широкі налаштування зйомки з кількома переглядами або монокулярні відео з оптимізацією за ідентифікацією під час висновку, обмежуючи їх масштабованість та простоту використання на невидимих об'єктах. Щоб подолати ці недоліки ефективності, ми пропонуємо\ OURS, метод подачі вперед для створення високоякісних аватарів голови Гауса лише з кількох вхідних зображень, підтримуючи анімацію в режимі реального часу. Наш підхід безпосередньо вивчає уявлення Гауса на піксель із вхідних зображень та агрегує інформацію з кількома переглядами за допомогою кодера на основі трансформатора, який поєднує функції зображення як з DinoV3, так і зі стабільною дифузією VAE. Для анімації в режимі реального часу ми розширюємо явні гаусові уявлення за допомогою особливостей за гаусса та впроваджуємо легку динамічну мережу на основі MLP для прогнозування 3D-гаусових деформацій з кодів виразів. Крім того, щоб підвищити геометричну гладкість 3D-головки, ми використовуємо точкові карти з попередньо навченої великої моделі реконструкції як нагляд за геометрією. Експерименти показують, що наш підхід значно перевершує існуючі методи як за якістю візуалізації, так і за ефективністю висновків, підтримуючи динамічну анімацію аватара в режимі реального часу.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive