Трансформери розширення Кана: категоріальне об'єднання уваги, дифузії та predict-detach самокондиціювання
Переосмислює кілька варіантів трансформерів як єдину структуру розширення, засновану на теорії категорій.
At a glance
- Source
- arXiv
- Published
- May 26, 2026
- Read time
- 1 min read
- Primary lane
- Machine Learning
Quick read
4 bullets- Переосмислює кілька варіантів трансформерів як єдину структуру розширення, засновану на теорії категорій.
- Розглядає стандартну увагу, геометричне змішування трансформерів і симпліціальні оператори вищого порядку як пов'язані випадки однієї сім'ї.
- Показує, що predict-detach самокондиціювання дає найбільші емпіричні виграші на Penn Treebank, WikiText-2 і WikiText-103.
- Робота корисна, якщо дає дослідникам чистішу мову для порівняння варіантів трансформерів без ставлення до кожного дизайну як до окремого трюку. Якщо ця абстракція витримає перевірку, вона може полегшити міркування про архітектури та перенесення ідей між сімействами моделей.
Чому це важливо
Робота корисна, якщо дає дослідникам чистішу мову для порівняння варіантів трансформерів без ставлення до кожного дизайну як до окремого трюку. Якщо ця абстракція витримає перевірку, вона може полегшити міркування про архітектури та перенесення ідей між сімействами моделей.
Builder takeaway
arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Коротко
- Переосмислює кілька варіантів трансформерів як єдину структуру розширення, засновану на теорії категорій.
- Розглядає стандартну увагу, геометричне змішування трансформерів і симпліціальні оператори вищого порядку як пов'язані випадки однієї сім'ї.
- Показує, що predict-detach самокондиціювання дає найбільші емпіричні виграші на Penn Treebank, WikiText-2 і WikiText-103.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.