arXiv

Трансформери розширення Кана: категоріальне об'єднання уваги, дифузії та predict-detach самокондиціювання

Переосмислює кілька варіантів трансформерів як єдину структуру розширення, засновану на теорії категорій.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
May 26, 2026
Read time
1 min read
Primary lane
Machine Learning

Quick read

4 bullets
  • Переосмислює кілька варіантів трансформерів як єдину структуру розширення, засновану на теорії категорій.
  • Розглядає стандартну увагу, геометричне змішування трансформерів і симпліціальні оператори вищого порядку як пов'язані випадки однієї сім'ї.
  • Показує, що predict-detach самокондиціювання дає найбільші емпіричні виграші на Penn Treebank, WikiText-2 і WikiText-103.
  • Робота корисна, якщо дає дослідникам чистішу мову для порівняння варіантів трансформерів без ставлення до кожного дизайну як до окремого трюку. Якщо ця абстракція витримає перевірку, вона може полегшити міркування про архітектури та перенесення ідей між сімействами моделей.

Чому це важливо

Робота корисна, якщо дає дослідникам чистішу мову для порівняння варіантів трансформерів без ставлення до кожного дизайну як до окремого трюку. Якщо ця абстракція витримає перевірку, вона може полегшити міркування про архітектури та перенесення ідей між сімействами моделей.

Builder takeaway

arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Коротко

- Переосмислює кілька варіантів трансформерів як єдину структуру розширення, засновану на теорії категорій.

- Розглядає стандартну увагу, геометричне змішування трансформерів і симпліціальні оператори вищого порядку як пов'язані випадки однієї сім'ї.

- Показує, що predict-detach самокондиціювання дає найбільші емпіричні виграші на Penn Treebank, WikiText-2 і WikiText-103.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.