arXiv

Poci-Diff: Постійно та інтерактивно розміщуйте об'єкти за допомогою дифузії, керованої 3D-макетом

Ми пропонуємо підхід на основі дифузії для генерації тексту в зображення (T2I) з послідовним та інтерактивним керуванням та редагуванням 3D-макета. Хоча попередні методи покращують просторову прихильність за допомогою двовимірних сигналів або ітераційних стратегій копіювання-деформації вставлення, вони часто спотворюють геометрію об'єкта і не зберігають узгодженість між редагуваннями. Щоб усунути ці обмеження, ми вводимо основу для послідовного та інтерактивного позиціонування об'єктів (PoCI-diff), нову формулювання для спільного застосування 3D-геометричних обмежень та семантичного зв'язування на рівні екземплярів у рамках уніфікованого процесу дифузії. Наш метод забезпечує явний семантичний контроль для кожного об'єкта, прив'язуючи окремі текстові описи до певних тривимірних обмежувальних рамок за допомогою змішаної латентної дифузії, що дозволяє синтезувати складні багатооб'єктні сцени в один раз. Далі ми пропонуємо конвеєр генеративного редагування без деформації, який підтримує вставку, видалення та перетворення об'єктів за допомогою регенерації, а не деформації пікселів. Щоб зберегти ідентичність об'єкта та узгодженість між редагуваннями, ми обумовлюємо процес дифузії на еталонних зображеннях за допомогою IP-адаптера, забезпечуючи когерентний вигляд об'єкта під час інтерактивного 3D-редагування, зберігаючи глобальну узгодженість сцени. Експериментальні результати демонструють, що POCI-Diff створює високоякісні зображення, що відповідають зазначеним 3D-макетам та редагуванням, перевершуючи найсучасніші методи як у візуальній точності, так і за дотриманням макета, одночасно усуваючи геометричні артефакти, спричинені деформацією.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Jan 20, 2026
Read time
1 min read
Primary lane
Computer Vision

Quick read

1 bullets
  • Ми пропонуємо підхід на основі дифузії для генерації тексту в зображення (T2I) з послідовним та інтерактивним керуванням та редагуванням 3D-макета. Хоча попередні методи покращують просторову прихильність за допомогою двовимірних сигналів або ітераційних стратегій копіювання-деформації вставлення, вони часто спотворюють геометрію об'єкта і не зберігають узгодженість між редагуваннями. Щоб усунути ці обмеження, ми вводимо основу для послідовного та інтерактивного позиціонування об'єктів (PoCI-diff), нову формулювання для спільного застосування 3D-геометричних обмежень та семантичного зв'язування на рівні екземплярів у рамках уніфікованого процесу дифузії. Наш метод забезпечує явний семантичний контроль для кожного об'єкта, прив'язуючи окремі текстові описи до певних тривимірних обмежувальних рамок за допомогою змішаної латентної дифузії, що дозволяє синтезувати складні багатооб'єктні сцени в один раз. Далі ми пропонуємо конвеєр генеративного редагування без деформації, який підтримує вставку, видалення та перетворення об'єктів за допомогою регенерації, а не деформації пікселів. Щоб зберегти ідентичність об'єкта та узгодженість між редагуваннями, ми обумовлюємо процес дифузії на еталонних зображеннях за допомогою IP-адаптера, забезпечуючи когерентний вигляд об'єкта під час інтерактивного 3D-редагування, зберігаючи глобальну узгодженість сцени. Експериментальні результати демонструють, що POCI-Diff створює високоякісні зображення, що відповідають зазначеним 3D-макетам та редагуванням, перевершуючи найсучасніші методи як у візуальній точності, так і за дотриманням макета, одночасно усуваючи геометричні артефакти, спричинені деформацією.

Чому це важливо

Ми пропонуємо підхід на основі дифузії для генерації тексту в зображення (T2I) з послідовним та інтерактивним керуванням та редагуванням 3D-макета. Хоча попередні методи покращують просторову прихильність за допомогою двовимірних сигналів або ітераційних стратегій копіювання-деформації вставлення, вони часто спотворюють геометрію об'єкта і не зберігають узгодженість між редагуваннями. Щоб усунути ці обмеження, ми вводимо основу для послідовного та інтерактивного позиціонування об'єктів (PoCI-diff), нову формулювання для спільного застосування 3D-геометричних обмежень та семантичного зв'язування на рівні екземплярів у рамках уніфікованого процесу дифузії. Наш метод забезпечує явний семантичний контроль для кожного об'єкта, прив'язуючи окремі текстові описи до певних тривимірних обмежувальних рамок за допомогою змішаної латентної дифузії, що дозволяє синтезувати складні багатооб'єктні сцени в один раз. Далі ми пропонуємо конвеєр генеративного редагування без деформації, який підтримує вставку, видалення та перетворення об'єктів за допомогою регенерації, а не деформації пікселів. Щоб зберегти ідентичність об'єкта та узгодженість між редагуваннями, ми обумовлюємо процес дифузії на еталонних зображеннях за допомогою IP-адаптера, забезпечуючи когерентний вигляд об'єкта під час інтерактивного 3D-редагування, зберігаючи глобальну узгодженість сцени. Експериментальні результати демонструють, що POCI-Diff створює високоякісні зображення, що відповідають зазначеним 3D-макетам та редагуванням, перевершуючи найсучасніші методи як у візуальній точності, так і за дотриманням макета, одночасно усуваючи геометричні артефакти, спричинені деформацією.

Builder takeaway

arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Ми пропонуємо підхід на основі дифузії для генерації тексту в зображення (T2I) з послідовним та інтерактивним керуванням та редагуванням 3D-макета. Хоча попередні методи покращують просторову прихильність за допомогою двовимірних сигналів або ітераційних стратегій копіювання-деформації вставлення, вони часто спотворюють геометрію об'єкта і не зберігають узгодженість між редагуваннями. Щоб усунути ці обмеження, ми вводимо основу для послідовного та інтерактивного позиціонування об'єктів (PoCI-diff), нову формулювання для спільного застосування 3D-геометричних обмежень та семантичного зв'язування на рівні екземплярів у рамках уніфікованого процесу дифузії. Наш метод забезпечує явний семантичний контроль для кожного об'єкта, прив'язуючи окремі текстові описи до певних тривимірних обмежувальних рамок за допомогою змішаної латентної дифузії, що дозволяє синтезувати складні багатооб'єктні сцени в один раз. Далі ми пропонуємо конвеєр генеративного редагування без деформації, який підтримує вставку, видалення та перетворення об'єктів за допомогою регенерації, а не деформації пікселів. Щоб зберегти ідентичність об'єкта та узгодженість між редагуваннями, ми обумовлюємо процес дифузії на еталонних зображеннях за допомогою IP-адаптера, забезпечуючи когерентний вигляд об'єкта під час інтерактивного 3D-редагування, зберігаючи глобальну узгодженість сцени. Експериментальні результати демонструють, що POCI-Diff створює високоякісні зображення, що відповідають зазначеним 3D-макетам та редагуванням, перевершуючи найсучасніші методи як у візуальній точності, так і за дотриманням макета, одночасно усуваючи геометричні артефакти, спричинені деформацією.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.