arXiv

Post-LayerNorm повертається: стабільно, виразно та глибоко

Стверджує, що розширення LLM і збільшення контексту дає спадну віддачу, тоді як масштабування глибиною теоретично привабливе, але часто нестабільне.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Jan 27, 2026
Read time
1 min read
Primary lane
Cs.lg

Quick read

4 bullets
  • Стверджує, що розширення LLM і збільшення контексту дає спадну віддачу, тоді як масштабування глибиною теоретично привабливе, але часто нестабільне.
  • Повертається до Post-LayerNorm (Post-LN) трансформерів і показує, що ключова проблема — згасання градієнта в residual-шляху типу ResNet.
  • Пропонує Keel: Post-LN трансформер, який замінює residual-шлях на Highway-подібне з’єднання для збереження потоку градієнта.
  • Повідомляє про стабільне навчання на екстремальній глибині (1000+ шарів) і кращу перплексію/масштабування глибиною порівняно з Pre-LN.

Чому це важливо

Якщо ви хочете експериментувати зі значно глибшими трансформерами без екзотичних ініціалізацій чи оптимізаційних трюків, Keel — конкретна й відносно проста архітектурна зміна. Вона також точніше пояснює, чому Post-LN історично ламався на масштабі.

Builder takeaway

arXiv published this update in the Cs.lg lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Швидке читання

- Стверджує, що розширення LLM і збільшення контексту дає спадну віддачу, тоді як масштабування глибиною теоретично привабливе, але часто нестабільне.

- Повертається до Post-LayerNorm (Post-LN) трансформерів і показує, що ключова проблема — згасання градієнта в residual-шляху типу ResNet.

- Пропонує Keel: Post-LN трансформер, який замінює residual-шлях на Highway-подібне з’єднання для збереження потоку градієнта.

- Повідомляє про стабільне навчання на екстремальній глибині (1000+ шарів) і кращу перплексію/масштабування глибиною порівняно з Pre-LN.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.