Динамічна диференціальна лінійна увага: покращення лінійного дифузійного трансформатора для високоякісного генерування

Quick read

1 bullets

Дифузійні трансформатори (DIT) стали потужною архітектурою для генерації зображень високої точності, проте квадратна вартість самоуваги створює головне вузьке місце для масштабування. Для вирішення цього були прийняті механізми лінійної уваги для зниження обчислювальних витрат; на жаль, отримані моделі лінійних дифузійних трансформаторів (LIT) часто йдуть за рахунок генеративної продуктивності, часто створюючи надмірно згладжені ваги уваги, які обмежують виразність. У цій роботі ми представляємо динамічну диференціальну лінійну увагу (dyDILa), нову формулювання лінійної уваги, яка підвищує ефективність LIT шляхом пом'якшення проблеми надмірного згладжування та покращення якості генерації. Зокрема, новинка dyDILa полягає в трьох ключових конструкціях: (i) модуль динамічної проекції, який полегшує роз'єднання представлень токенів шляхом навчання з динамічно призначеними знаннями; (ii) ядро динамічної міри, яке забезпечує краще вимірювання подібності для фіксації тонкозернистих семантичних відмінностей між токенами шляхом динамічного призначення функцій ядра для обробки токенів; і (iii) диференціальний оператор токенів, який дозволяє більш надійний пошук запит-ключ шляхом обчислення відмінностей між токенами та токенами їх відповідні резервування інформації, створена ядром динамічної міри. Щоб скористатися DydIla, ми впроваджуємо вдосконалений LiT, який називається Dydi-lit, який систематично включає наші досягнення. Широкі експерименти показують, що DyDI-lit постійно перевершує сучасні сучасні моделі (SOTA) за різними показниками, підкреслюючи його сильний практичний потенціал.

Чому це важливо

✦

Дифузійні трансформатори (DIT) стали потужною архітектурою для генерації зображень високої точності, проте квадратна вартість самоуваги створює головне вузьке місце для масштабування. Для вирішення цього були прийняті механізми лінійної уваги для зниження обчислювальних витрат; на жаль, отримані моделі лінійних дифузійних трансформаторів (LIT) часто йдуть за рахунок генеративної продуктивності, часто створюючи надмірно згладжені ваги уваги, які обмежують виразність. У цій роботі ми представляємо динамічну диференціальну лінійну увагу (dyDILa), нову формулювання лінійної уваги, яка підвищує ефективність LIT шляхом пом'якшення проблеми надмірного згладжування та покращення якості генерації. Зокрема, новинка dyDILa полягає в трьох ключових конструкціях: (i) модуль динамічної проекції, який полегшує роз'єднання представлень токенів шляхом навчання з динамічно призначеними знаннями; (ii) ядро динамічної міри, яке забезпечує краще вимірювання подібності для фіксації тонкозернистих семантичних відмінностей між токенами шляхом динамічного призначення функцій ядра для обробки токенів; і (iii) диференціальний оператор токенів, який дозволяє більш надійний пошук запит-ключ шляхом обчислення відмінностей між токенами та токенами їх відповідні резервування інформації, створена ядром динамічної міри. Щоб скористатися DydIla, ми впроваджуємо вдосконалений LiT, який називається Dydi-lit, який систематично включає наші досягнення. Широкі експерименти показують, що DyDI-lit постійно перевершує сучасні сучасні моделі (SOTA) за різними показниками, підкреслюючи його сильний практичний потенціал.

Builder takeaway

arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Дифузійні трансформатори (DIT) стали потужною архітектурою для генерації зображень високої точності, проте квадратна вартість самоуваги створює головне вузьке місце для масштабування. Для вирішення цього були прийняті механізми лінійної уваги для зниження обчислювальних витрат; на жаль, отримані моделі лінійних дифузійних трансформаторів (LIT) часто йдуть за рахунок генеративної продуктивності, часто створюючи надмірно згладжені ваги уваги, які обмежують виразність. У цій роботі ми представляємо динамічну диференціальну лінійну увагу (dyDILa), нову формулювання лінійної уваги, яка підвищує ефективність LIT шляхом пом'якшення проблеми надмірного згладжування та покращення якості генерації. Зокрема, новинка dyDILa полягає в трьох ключових конструкціях: (i) модуль динамічної проекції, який полегшує роз'єднання представлень токенів шляхом навчання з динамічно призначеними знаннями; (ii) ядро динамічної міри, яке забезпечує краще вимірювання подібності для фіксації тонкозернистих семантичних відмінностей між токенами шляхом динамічного призначення функцій ядра для обробки токенів; і (iii) диференціальний оператор токенів, який дозволяє більш надійний пошук запит-ключ шляхом обчислення відмінностей між токенами та токенами їх відповідні резервування інформації, створена ядром динамічної міри. Щоб скористатися DydIla, ми впроваджуємо вдосконалений LiT, який називається Dydi-lit, який систематично включає наші досягнення. Широкі експерименти показують, що DyDI-lit постійно перевершує сучасні сучасні моделі (SOTA) за різними показниками, підкреслюючи його сильний практичний потенціал.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive