360Anything: підйом зображень і відео без геометрії на 360°
Перенесення перспективних зображень і відео в панорами 360° дозволяє створювати захоплюючий 3D-світ.Існуючі підходи часто покладаються на явне геометричне вирівнювання між перспективою та рівнопрямокутною проекцією (ERP).Однак для цього потрібні відомі метадані камери, що приховує програму для даних у дикій природі, де таке калібрування зазвичай відсутнє або шумне.Ми пропонуємо 360Anything, структуру без геометрії, побудовану на попередньо навчених дифузійних трансформаторах.Розглядаючи введення перспективи та ціль панорами просто як послідовності маркерів, 360Anything вивчає відображення перспективи в рівнопрямокутник виключно на основі даних, усуваючи потребу в інформації камери.Наш підхід забезпечує найсучаснішу продуктивність у створенні як зображень, так і відео з перспективи на 360°, перевершуючи попередні роботи, які використовують інформацію наземної камери.Ми також відстежуємо основну причину артефактів швів на границях ERP до нульового заповнення в кодувальнику VAE та впроваджуємо Circular Latent Encoding для полегшення безперебійної генерації.Нарешті, ми показуємо конкурентоспроможні результати в нульовому кадрі камери FoV і контрольних тестах оцінки орієнтації, демонструючи глибоке геометричне розуміння 360Anything і ширшу корисність у задачах комп’ютерного зору.Додаткові результати доступні на https://360anything.github.io/.
Quick read
1 bullets- Перенесення перспективних зображень і відео в панорами 360° дозволяє створювати захоплюючий 3D-світ.Існуючі підходи часто покладаються на явне геометричне вирівнювання між перспективою та рівнопрямокутною проекцією (ERP).Однак для цього потрібні відомі метадані камери, що приховує програму для даних у дикій природі, де таке калібрування зазвичай відсутнє або шумне.Ми пропонуємо 360Anything, структуру без геометрії, побудовану на попередньо навчених дифузійних трансформаторах.Розглядаючи введення перспективи та ціль панорами просто як послідовності маркерів, 360Anything вивчає відображення перспективи в рівнопрямокутник виключно на основі даних, усуваючи потребу в інформації камери.Наш підхід забезпечує найсучаснішу продуктивність у створенні як зображень, так і відео з перспективи на 360°, перевершуючи попередні роботи, які використовують інформацію наземної камери.Ми також відстежуємо основну причину артефактів швів на границях ERP до нульового заповнення в кодувальнику VAE та впроваджуємо Circular Latent Encoding для полегшення безперебійної генерації.Нарешті, ми показуємо конкурентоспроможні результати в нульовому кадрі камери FoV і контрольних тестах оцінки орієнтації, демонструючи глибоке геометричне розуміння 360Anything і ширшу корисність у задачах комп’ютерного зору.Додаткові результати доступні на https://360anything.github.io/.
Чому це важливо
Перенесення перспективних зображень і відео в панорами 360° дозволяє створювати захоплюючий 3D-світ.Існуючі підходи часто покладаються на явне геометричне вирівнювання між перспективою та рівнопрямокутною проекцією (ERP).Однак для цього потрібні відомі метадані камери, що приховує програму для даних у дикій природі, де таке калібрування зазвичай відсутнє або шумне.Ми пропонуємо 360Anything, структуру без геометрії, побудовану на попередньо навчених дифузійних трансформаторах.Розглядаючи введення перспективи та ціль панорами просто як послідовності маркерів, 360Anything вивчає відображення перспективи в рівнопрямокутник виключно на основі даних, усуваючи потребу в інформації камери.Наш підхід забезпечує найсучаснішу продуктивність у створенні як зображень, так і відео з перспективи на 360°, перевершуючи попередні роботи, які використовують інформацію наземної камери.Ми також відстежуємо основну причину артефактів швів на границях ERP до нульового заповнення в кодувальнику VAE та впроваджуємо Circular Latent Encoding для полегшення безперебійної генерації.Нарешті, ми показуємо конкурентоспроможні результати в нульовому кадрі камери FoV і контрольних тестах оцінки орієнтації, демонструючи глибоке геометричне розуміння 360Anything і ширшу корисність у задачах комп’ютерного зору.Додаткові результати доступні на https://360anything.github.io/.
Builder takeaway
arXiv published this update in the Cs.cv lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Перенесення перспективних зображень і відео в панорами 360° дозволяє створювати захоплюючий 3D-світ.Існуючі підходи часто покладаються на явне геометричне вирівнювання між перспективою та рівнопрямокутною проекцією (ERP).Однак для цього потрібні відомі метадані камери, що приховує програму для даних у дикій природі, де таке калібрування зазвичай відсутнє або шумне.Ми пропонуємо 360Anything, структуру без геометрії, побудовану на попередньо навчених дифузійних трансформаторах.Розглядаючи введення перспективи та ціль панорами просто як послідовності маркерів, 360Anything вивчає відображення перспективи в рівнопрямокутник виключно на основі даних, усуваючи потребу в інформації камери.Наш підхід забезпечує найсучаснішу продуктивність у створенні як зображень, так і відео з перспективи на 360°, перевершуючи попередні роботи, які використовують інформацію наземної камери.Ми також відстежуємо основну причину артефактів швів на границях ERP до нульового заповнення в кодувальнику VAE та впроваджуємо Circular Latent Encoding для полегшення безперебійної генерації.Нарешті, ми показуємо конкурентоспроможні результати в нульовому кадрі камери FoV і контрольних тестах оцінки орієнтації, демонструючи глибоке геометричне розуміння 360Anything і ширшу корисність у задачах комп’ютерного зору.Додаткові результати доступні на https://360anything.github.io/.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.