arXiv

Одноразовий уточнювач: Підвищення синтезу нового перегляду за допомогою одноетапної дифузії

Ми представляємо нову основу для високоточного синтезу нових переглядів (NVS) з розріджених зображень, усуваючи ключові обмеження в останніх методах 3D Gaussian Splatting (3DGS), побудованих на хребтах Vision Transformer (ViT). Хоча конвеєри на основі VIT пропонують сильні геометричні пріоритети, вони часто обмежуються входами з низькою роздільною здатністю через обчислювальні витрати. Більше того, існуючі методи генеративного покращення, як правило, є 3D-агностичними, що призводить до суперечливих структур у різних поглядах, особливо в невидимих регіонів. Щоб подолати ці проблеми, ми розробляємо модуль сприйняття деталей з двома доменами, який дозволяє обробляти зображення з високою роздільною здатністю, не обмежуючись основою ViT, і наділяє гаусів додатковими функціями для зберігання високочастотних деталей. Ми розробляємо дифузійну мережу, керовану функціями, яка може зберігати високочастотні деталі під час процесу відновлення. Ми впроваджуємо уніфіковану стратегію навчання, яка дозволяє спільну оптимізацію геометричного хребта на основі VIT та модуля вдосконалення на основі дифузії. Експерименти демонструють, що наш метод може підтримувати чудову якість генерації в декількох наборах даних.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Jan 20, 2026
Read time
1 min read
Primary lane
Computer Vision

Quick read

1 bullets
  • Ми представляємо нову основу для високоточного синтезу нових переглядів (NVS) з розріджених зображень, усуваючи ключові обмеження в останніх методах 3D Gaussian Splatting (3DGS), побудованих на хребтах Vision Transformer (ViT). Хоча конвеєри на основі VIT пропонують сильні геометричні пріоритети, вони часто обмежуються входами з низькою роздільною здатністю через обчислювальні витрати. Більше того, існуючі методи генеративного покращення, як правило, є 3D-агностичними, що призводить до суперечливих структур у різних поглядах, особливо в невидимих регіонів. Щоб подолати ці проблеми, ми розробляємо модуль сприйняття деталей з двома доменами, який дозволяє обробляти зображення з високою роздільною здатністю, не обмежуючись основою ViT, і наділяє гаусів додатковими функціями для зберігання високочастотних деталей. Ми розробляємо дифузійну мережу, керовану функціями, яка може зберігати високочастотні деталі під час процесу відновлення. Ми впроваджуємо уніфіковану стратегію навчання, яка дозволяє спільну оптимізацію геометричного хребта на основі VIT та модуля вдосконалення на основі дифузії. Експерименти демонструють, що наш метод може підтримувати чудову якість генерації в декількох наборах даних.

Чому це важливо

Ми представляємо нову основу для високоточного синтезу нових переглядів (NVS) з розріджених зображень, усуваючи ключові обмеження в останніх методах 3D Gaussian Splatting (3DGS), побудованих на хребтах Vision Transformer (ViT). Хоча конвеєри на основі VIT пропонують сильні геометричні пріоритети, вони часто обмежуються входами з низькою роздільною здатністю через обчислювальні витрати. Більше того, існуючі методи генеративного покращення, як правило, є 3D-агностичними, що призводить до суперечливих структур у різних поглядах, особливо в невидимих регіонів. Щоб подолати ці проблеми, ми розробляємо модуль сприйняття деталей з двома доменами, який дозволяє обробляти зображення з високою роздільною здатністю, не обмежуючись основою ViT, і наділяє гаусів додатковими функціями для зберігання високочастотних деталей. Ми розробляємо дифузійну мережу, керовану функціями, яка може зберігати високочастотні деталі під час процесу відновлення. Ми впроваджуємо уніфіковану стратегію навчання, яка дозволяє спільну оптимізацію геометричного хребта на основі VIT та модуля вдосконалення на основі дифузії. Експерименти демонструють, що наш метод може підтримувати чудову якість генерації в декількох наборах даних.

Builder takeaway

arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Ми представляємо нову основу для високоточного синтезу нових переглядів (NVS) з розріджених зображень, усуваючи ключові обмеження в останніх методах 3D Gaussian Splatting (3DGS), побудованих на хребтах Vision Transformer (ViT). Хоча конвеєри на основі VIT пропонують сильні геометричні пріоритети, вони часто обмежуються входами з низькою роздільною здатністю через обчислювальні витрати. Більше того, існуючі методи генеративного покращення, як правило, є 3D-агностичними, що призводить до суперечливих структур у різних поглядах, особливо в невидимих регіонів. Щоб подолати ці проблеми, ми розробляємо модуль сприйняття деталей з двома доменами, який дозволяє обробляти зображення з високою роздільною здатністю, не обмежуючись основою ViT, і наділяє гаусів додатковими функціями для зберігання високочастотних деталей. Ми розробляємо дифузійну мережу, керовану функціями, яка може зберігати високочастотні деталі під час процесу відновлення. Ми впроваджуємо уніфіковану стратегію навчання, яка дозволяє спільну оптимізацію геометричного хребта на основі VIT та модуля вдосконалення на основі дифузії. Експерименти демонструють, що наш метод може підтримувати чудову якість генерації в декількох наборах даних.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.