arXiv

Масштабування дифузійних перетворювачів тексту в зображення за допомогою автокодерів представлення

Репрезентаційні автокодери (RAE) показали явні переваги в дифузійному моделюванні на ImageNet завдяки навчанню у високовимірних семантичних латентних просторах.У цій роботі ми досліджуємо, чи може цей фреймворк масштабуватися до великомасштабного генерування тексту довільної форми (T2I).Ми спочатку масштабуємо декодери RAE на кодувальнику замороженого представлення (SigLIP-2) поза межами ImageNet, навчаючись на веб-, синтетичних і текстових даних, виявивши, що хоча масштаб покращує загальну точність, цільова композиція даних є важливою для конкретних доменів, таких як текст.Потім ми проводимо суворе стрес-тестування варіантів дизайну RAE, спочатку запропонованих для ImageNet.Наш аналіз показує, що масштабування спрощує структуру: у той час як планування шуму, що залежить від розміру, залишається критичним, архітектурні складності, такі як широкі дифузійні головки та шумопосилене декодування, пропонують незначні переваги в масштабі. Спираючись на цю спрощену структуру, ми проводимо контрольоване порівняння RAE із найсучаснішим FLUX VAE на шкалах дифузійних трансформаторів відПараметри від 0,5B до 9,8B.RAE стабільно перевершують VAE під час попереднього навчання на всіх модельних масштабах.Крім того, під час точного налаштування високоякісних наборів даних моделі на основі VAE катастрофічно переповнюються після 64 епох, тоді як моделі RAE залишаються стабільними протягом 256 епох і досягають незмінно кращої продуктивності.У всіх експериментах моделі дифузії на основі RAE демонструють швидшу конвергенцію та кращу якість генерації, встановлюючи RAE як простішу та міцнішу основу, ніж VAE, для великомасштабної генерації T2I.Крім того, оскільки як візуальне розуміння, так і генерація можуть працювати в спільному просторі представлення, мультимодальна модель може безпосередньо міркувати над згенерованими латентами, відкриваючи нові можливості для уніфікованих моделей.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Jan 22, 2026
Read time
1 min read
Primary lane
Cs.cv

Quick read

1 bullets
  • Репрезентаційні автокодери (RAE) показали явні переваги в дифузійному моделюванні на ImageNet завдяки навчанню у високовимірних семантичних латентних просторах.У цій роботі ми досліджуємо, чи може цей фреймворк масштабуватися до великомасштабного генерування тексту довільної форми (T2I).Ми спочатку масштабуємо декодери RAE на кодувальнику замороженого представлення (SigLIP-2) поза межами ImageNet, навчаючись на веб-, синтетичних і текстових даних, виявивши, що хоча масштаб покращує загальну точність, цільова композиція даних є важливою для конкретних доменів, таких як текст.Потім ми проводимо суворе стрес-тестування варіантів дизайну RAE, спочатку запропонованих для ImageNet.Наш аналіз показує, що масштабування спрощує структуру: у той час як планування шуму, що залежить від розміру, залишається критичним, архітектурні складності, такі як широкі дифузійні головки та шумопосилене декодування, пропонують незначні переваги в масштабі. Спираючись на цю спрощену структуру, ми проводимо контрольоване порівняння RAE із найсучаснішим FLUX VAE на шкалах дифузійних трансформаторів відПараметри від 0,5B до 9,8B.RAE стабільно перевершують VAE під час попереднього навчання на всіх модельних масштабах.Крім того, під час точного налаштування високоякісних наборів даних моделі на основі VAE катастрофічно переповнюються після 64 епох, тоді як моделі RAE залишаються стабільними протягом 256 епох і досягають незмінно кращої продуктивності.У всіх експериментах моделі дифузії на основі RAE демонструють швидшу конвергенцію та кращу якість генерації, встановлюючи RAE як простішу та міцнішу основу, ніж VAE, для великомасштабної генерації T2I.Крім того, оскільки як візуальне розуміння, так і генерація можуть працювати в спільному просторі представлення, мультимодальна модель може безпосередньо міркувати над згенерованими латентами, відкриваючи нові можливості для уніфікованих моделей.

Чому це важливо

Репрезентаційні автокодери (RAE) показали явні переваги в дифузійному моделюванні на ImageNet завдяки навчанню у високовимірних семантичних латентних просторах.У цій роботі ми досліджуємо, чи може цей фреймворк масштабуватися до великомасштабного генерування тексту довільної форми (T2I).Ми спочатку масштабуємо декодери RAE на кодувальнику замороженого представлення (SigLIP-2) поза межами ImageNet, навчаючись на веб-, синтетичних і текстових даних, виявивши, що хоча масштаб покращує загальну точність, цільова композиція даних є важливою для конкретних доменів, таких як текст.Потім ми проводимо суворе стрес-тестування варіантів дизайну RAE, спочатку запропонованих для ImageNet.Наш аналіз показує, що масштабування спрощує структуру: у той час як планування шуму, що залежить від розміру, залишається критичним, архітектурні складності, такі як широкі дифузійні головки та шумопосилене декодування, пропонують незначні переваги в масштабі. Спираючись на цю спрощену структуру, ми проводимо контрольоване порівняння RAE із найсучаснішим FLUX VAE на шкалах дифузійних трансформаторів відПараметри від 0,5B до 9,8B.RAE стабільно перевершують VAE під час попереднього навчання на всіх модельних масштабах.Крім того, під час точного налаштування високоякісних наборів даних моделі на основі VAE катастрофічно переповнюються після 64 епох, тоді як моделі RAE залишаються стабільними протягом 256 епох і досягають незмінно кращої продуктивності.У всіх експериментах моделі дифузії на основі RAE демонструють швидшу конвергенцію та кращу якість генерації, встановлюючи RAE як простішу та міцнішу основу, ніж VAE, для великомасштабної генерації T2I.Крім того, оскільки як візуальне розуміння, так і генерація можуть працювати в спільному просторі представлення, мультимодальна модель може безпосередньо міркувати над згенерованими латентами, відкриваючи нові можливості для уніфікованих моделей.

Builder takeaway

arXiv published this update in the Cs.cv lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Репрезентаційні автокодери (RAE) показали явні переваги в дифузійному моделюванні на ImageNet завдяки навчанню у високовимірних семантичних латентних просторах.У цій роботі ми досліджуємо, чи може цей фреймворк масштабуватися до великомасштабного генерування тексту довільної форми (T2I).Ми спочатку масштабуємо декодери RAE на кодувальнику замороженого представлення (SigLIP-2) поза межами ImageNet, навчаючись на веб-, синтетичних і текстових даних, виявивши, що хоча масштаб покращує загальну точність, цільова композиція даних є важливою для конкретних доменів, таких як текст.Потім ми проводимо суворе стрес-тестування варіантів дизайну RAE, спочатку запропонованих для ImageNet.Наш аналіз показує, що масштабування спрощує структуру: у той час як планування шуму, що залежить від розміру, залишається критичним, архітектурні складності, такі як широкі дифузійні головки та шумопосилене декодування, пропонують незначні переваги в масштабі. Спираючись на цю спрощену структуру, ми проводимо контрольоване порівняння RAE із найсучаснішим FLUX VAE на шкалах дифузійних трансформаторів відПараметри від 0,5B до 9,8B.RAE стабільно перевершують VAE під час попереднього навчання на всіх модельних масштабах.Крім того, під час точного налаштування високоякісних наборів даних моделі на основі VAE катастрофічно переповнюються після 64 епох, тоді як моделі RAE залишаються стабільними протягом 256 епох і досягають незмінно кращої продуктивності.У всіх експериментах моделі дифузії на основі RAE демонструють швидшу конвергенцію та кращу якість генерації, встановлюючи RAE як простішу та міцнішу основу, ніж VAE, для великомасштабної генерації T2I.Крім того, оскільки як візуальне розуміння, так і генерація можуть працювати в спільному просторі представлення, мультимодальна модель може безпосередньо міркувати над згенерованими латентами, відкриваючи нові можливості для уніфікованих моделей.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.