Post-LayerNorm повертається: стабільно, виразно та глибоко
Стверджує, що розширення LLM і збільшення контексту дає спадну віддачу, тоді як масштабування глибиною теоретично привабливе, але часто нестабільне.
Quick read
4 bullets- Стверджує, що розширення LLM і збільшення контексту дає спадну віддачу, тоді як масштабування глибиною теоретично привабливе, але часто нестабільне.
- Повертається до Post-LayerNorm (Post-LN) трансформерів і показує, що ключова проблема — згасання градієнта в residual-шляху типу ResNet.
- Пропонує Keel: Post-LN трансформер, який замінює residual-шлях на Highway-подібне з’єднання для збереження потоку градієнта.
- Повідомляє про стабільне навчання на екстремальній глибині (1000+ шарів) і кращу перплексію/масштабування глибиною порівняно з Pre-LN.
Чому це важливо
Якщо ви хочете експериментувати зі значно глибшими трансформерами без екзотичних ініціалізацій чи оптимізаційних трюків, Keel — конкретна й відносно проста архітектурна зміна. Вона також точніше пояснює, чому Post-LN історично ламався на масштабі.
Builder takeaway
arXiv published this update in the Cs.lg lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Швидке читання
- Стверджує, що розширення LLM і збільшення контексту дає спадну віддачу, тоді як масштабування глибиною теоретично привабливе, але часто нестабільне.
- Повертається до Post-LayerNorm (Post-LN) трансформерів і показує, що ключова проблема — згасання градієнта в residual-шляху типу ResNet.
- Пропонує Keel: Post-LN трансформер, який замінює residual-шлях на Highway-подібне з’єднання для збереження потоку градієнта.
- Повідомляє про стабільне навчання на екстремальній глибині (1000+ шарів) і кращу перплексію/масштабування глибиною порівняно з Pre-LN.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.