arXiv

Post-LayerNorm повертається: стабільно, виразно та глибоко

Стверджує, що розширення LLM і збільшення контексту дає спадну віддачу, тоді як масштабування глибиною теоретично привабливе, але часто нестабільне.

arXiv|Jan 27, 2026|1 min read

Open original

At a glance

Source: arXiv
Published: Jan 27, 2026
Read time: 1 min read
Primary lane: Cs.lg

Cs.lg Transformers

Quick read

4 bullets

Стверджує, що розширення LLM і збільшення контексту дає спадну віддачу, тоді як масштабування глибиною теоретично привабливе, але часто нестабільне.
Повертається до Post-LayerNorm (Post-LN) трансформерів і показує, що ключова проблема — згасання градієнта в residual-шляху типу ResNet.
Пропонує Keel: Post-LN трансформер, який замінює residual-шлях на Highway-подібне з’єднання для збереження потоку градієнта.
Повідомляє про стабільне навчання на екстремальній глибині (1000+ шарів) і кращу перплексію/масштабування глибиною порівняно з Pre-LN.

Чому це важливо

✦

Якщо ви хочете експериментувати зі значно глибшими трансформерами без екзотичних ініціалізацій чи оптимізаційних трюків, Keel — конкретна й відносно проста архітектурна зміна. Вона також точніше пояснює, чому Post-LN історично ламався на масштабі.

Builder takeaway

arXiv published this update in the Cs.lg lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Швидке читання

- Стверджує, що розширення LLM і збільшення контексту дає спадну віддачу, тоді як масштабування глибиною теоретично привабливе, але часто нестабільне.

- Повертається до Post-LayerNorm (Post-LN) трансформерів і показує, що ключова проблема — згасання градієнта в residual-шляху типу ResNet.

- Пропонує Keel: Post-LN трансформер, який замінює residual-шлях на Highway-подібне з’єднання для збереження потоку градієнта.

- Повідомляє про стабільне навчання на екстремальній глибині (1000+ шарів) і кращу перплексію/масштабування глибиною порівняно з Pre-LN.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive