Тонкозернистий пошук складених зображень із нульовим знімком із додатковою візуально-семантичною інтеграцією
Отримання складених зображень із нульовим знімком (ZS-CIR) - це швидко зростаюча область із значними практичними застосуваннями, що дозволяє користувачам отримати цільове зображення, надаючи еталонне зображення та відносний підпис, що описує бажані модифікації. Існуючі методи ZS-CIR часто намагаються зафіксувати дрібнозернисті зміни та ефективно інтегрувати візуальну та семантичну інформацію. Вони в першу чергу покладаються або на перетворення мультимодального запиту в єдиний текст за допомогою моделей зображення в текст, або на використання великих мовних моделей для генерації опису цільового зображення, підходи, які часто не дозволяють захопити додаткову візуальну інформацію та повний семантичний контекст. Щоб усунути ці обмеження, ми пропонуємо новий метод пошуку складених зображень із тонкозернистим нульовим знімком із додатковою візуально-семантичною інтеграцією (CVSI). Зокрема, CVSI використовує три ключові компоненти: (1) Видобуток візуальної інформації, який не тільки витягує глобальні функції зображення, але й використовує попередньо навчену мережу картографування для перетворення зображення в псевдомаркер, поєднуючи його з текстом модифікації та об'єктами, які, швидше за все, будуть додані. (2) Видобуток семантичної інформації, що передбачає використання попередньо навченої моделі підписів для створення кількох підписів для еталонного зображення, а потім використання LLM для створення LLM для створення змінені підписи та об'єкти, які, швидше за все, будуть додані. (3) Додаткові Пошук інформації, який інтегрує інформацію, витягнуту як із запитів, так і із зображень бази даних, для отримання цільового зображення, що дозволяє системі ефективно обробляти пошукові запити в різних ситуаціях. Великі експерименти над трьома загальнодоступними наборами даних (наприклад, CIRR, CIRCO та FashionIQ) демонструють, що CVSI значно перевершує існуючі сучасні методи. Наш код доступний за адресою https://github.com/yyc6631/CVSI.
At a glance
- Source
- arXiv
- Published
- Jan 20, 2026
- Read time
- 1 min read
- Primary lane
- Computer Vision
Quick read
1 bullets- Отримання складених зображень із нульовим знімком (ZS-CIR) - це швидко зростаюча область із значними практичними застосуваннями, що дозволяє користувачам отримати цільове зображення, надаючи еталонне зображення та відносний підпис, що описує бажані модифікації. Існуючі методи ZS-CIR часто намагаються зафіксувати дрібнозернисті зміни та ефективно інтегрувати візуальну та семантичну інформацію. Вони в першу чергу покладаються або на перетворення мультимодального запиту в єдиний текст за допомогою моделей зображення в текст, або на використання великих мовних моделей для генерації опису цільового зображення, підходи, які часто не дозволяють захопити додаткову візуальну інформацію та повний семантичний контекст. Щоб усунути ці обмеження, ми пропонуємо новий метод пошуку складених зображень із тонкозернистим нульовим знімком із додатковою візуально-семантичною інтеграцією (CVSI). Зокрема, CVSI використовує три ключові компоненти: (1) Видобуток візуальної інформації, який не тільки витягує глобальні функції зображення, але й використовує попередньо навчену мережу картографування для перетворення зображення в псевдомаркер, поєднуючи його з текстом модифікації та об'єктами, які, швидше за все, будуть додані. (2) Видобуток семантичної інформації, що передбачає використання попередньо навченої моделі підписів для створення кількох підписів для еталонного зображення, а потім використання LLM для створення LLM для створення змінені підписи та об'єкти, які, швидше за все, будуть додані. (3) Додаткові Пошук інформації, який інтегрує інформацію, витягнуту як із запитів, так і із зображень бази даних, для отримання цільового зображення, що дозволяє системі ефективно обробляти пошукові запити в різних ситуаціях. Великі експерименти над трьома загальнодоступними наборами даних (наприклад, CIRR, CIRCO та FashionIQ) демонструють, що CVSI значно перевершує існуючі сучасні методи. Наш код доступний за адресою https://github.com/yyc6631/CVSI.
Чому це важливо
Отримання складених зображень із нульовим знімком (ZS-CIR) - це швидко зростаюча область із значними практичними застосуваннями, що дозволяє користувачам отримати цільове зображення, надаючи еталонне зображення та відносний підпис, що описує бажані модифікації. Існуючі методи ZS-CIR часто намагаються зафіксувати дрібнозернисті зміни та ефективно інтегрувати візуальну та семантичну інформацію. Вони в першу чергу покладаються або на перетворення мультимодального запиту в єдиний текст за допомогою моделей зображення в текст, або на використання великих мовних моделей для генерації опису цільового зображення, підходи, які часто не дозволяють захопити додаткову візуальну інформацію та повний семантичний контекст. Щоб усунути ці обмеження, ми пропонуємо новий метод пошуку складених зображень із тонкозернистим нульовим знімком із додатковою візуально-семантичною інтеграцією (CVSI). Зокрема, CVSI використовує три ключові компоненти: (1) Видобуток візуальної інформації, який не тільки витягує глобальні функції зображення, але й використовує попередньо навчену мережу картографування для перетворення зображення в псевдомаркер, поєднуючи його з текстом модифікації та об'єктами, які, швидше за все, будуть додані. (2) Видобуток семантичної інформації, що передбачає використання попередньо навченої моделі підписів для створення кількох підписів для еталонного зображення, а потім використання LLM для створення LLM для створення змінені підписи та об'єкти, які, швидше за все, будуть додані. (3) Додаткові Пошук інформації, який інтегрує інформацію, витягнуту як із запитів, так і із зображень бази даних, для отримання цільового зображення, що дозволяє системі ефективно обробляти пошукові запити в різних ситуаціях. Великі експерименти над трьома загальнодоступними наборами даних (наприклад, CIRR, CIRCO та FashionIQ) демонструють, що CVSI значно перевершує існуючі сучасні методи. Наш код доступний за адресою https://github.com/yyc6631/CVSI.
Builder takeaway
arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Отримання складених зображень із нульовим знімком (ZS-CIR) - це швидко зростаюча область із значними практичними застосуваннями, що дозволяє користувачам отримати цільове зображення, надаючи еталонне зображення та відносний підпис, що описує бажані модифікації. Існуючі методи ZS-CIR часто намагаються зафіксувати дрібнозернисті зміни та ефективно інтегрувати візуальну та семантичну інформацію. Вони в першу чергу покладаються або на перетворення мультимодального запиту в єдиний текст за допомогою моделей зображення в текст, або на використання великих мовних моделей для генерації опису цільового зображення, підходи, які часто не дозволяють захопити додаткову візуальну інформацію та повний семантичний контекст. Щоб усунути ці обмеження, ми пропонуємо новий метод пошуку складених зображень із тонкозернистим нульовим знімком із додатковою візуально-семантичною інтеграцією (CVSI). Зокрема, CVSI використовує три ключові компоненти: (1) Видобуток візуальної інформації, який не тільки витягує глобальні функції зображення, але й використовує попередньо навчену мережу картографування для перетворення зображення в псевдомаркер, поєднуючи його з текстом модифікації та об'єктами, які, швидше за все, будуть додані. (2) Видобуток семантичної інформації, що передбачає використання попередньо навченої моделі підписів для створення кількох підписів для еталонного зображення, а потім використання LLM для створення LLM для створення змінені підписи та об'єкти, які, швидше за все, будуть додані. (3) Додаткові Пошук інформації, який інтегрує інформацію, витягнуту як із запитів, так і із зображень бази даних, для отримання цільового зображення, що дозволяє системі ефективно обробляти пошукові запити в різних ситуаціях. Великі експерименти над трьома загальнодоступними наборами даних (наприклад, CIRR, CIRCO та FashionIQ) демонструють, що CVSI значно перевершує існуючі сучасні методи. Наш код доступний за адресою https://github.com/yyc6631/CVSI.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.