arXiv

Трансформери розширення Кана: категоріальне об'єднання уваги, дифузії та predict-detach самокондиціювання

Переосмислює кілька варіантів трансформерів як єдину структуру розширення, засновану на теорії категорій.

arXiv|May 26, 2026|1 min read

Open original

At a glance

Source: arXiv
Published: May 26, 2026
Read time: 1 min read
Primary lane: Machine Learning

Machine Learning Transformers Theory Architecture

Quick read

4 bullets

Переосмислює кілька варіантів трансформерів як єдину структуру розширення, засновану на теорії категорій.
Розглядає стандартну увагу, геометричне змішування трансформерів і симпліціальні оператори вищого порядку як пов'язані випадки однієї сім'ї.
Показує, що predict-detach самокондиціювання дає найбільші емпіричні виграші на Penn Treebank, WikiText-2 і WikiText-103.
Робота корисна, якщо дає дослідникам чистішу мову для порівняння варіантів трансформерів без ставлення до кожного дизайну як до окремого трюку. Якщо ця абстракція витримає перевірку, вона може полегшити міркування про архітектури та перенесення ідей між сімействами моделей.

Чому це важливо

✦

Робота корисна, якщо дає дослідникам чистішу мову для порівняння варіантів трансформерів без ставлення до кожного дизайну як до окремого трюку. Якщо ця абстракція витримає перевірку, вона може полегшити міркування про архітектури та перенесення ідей між сімействами моделей.

Builder takeaway

arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Коротко

- Переосмислює кілька варіантів трансформерів як єдину структуру розширення, засновану на теорії категорій.

- Розглядає стандартну увагу, геометричне змішування трансформерів і симпліціальні оператори вищого порядку як пов'язані випадки однієї сім'ї.

- Показує, що predict-detach самокондиціювання дає найбільші емпіричні виграші на Penn Treebank, WikiText-2 і WikiText-103.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive