Переваги попереднього кондиціонування спектральної ортогоналізації в мюоні
Оптимізатор Muon, алгоритм структурованого матриці, який використовує спектральну ортогоналізацію градієнтів, є віхою у попередній підготовці великих мовних моделей. Однак основні механізми Muon - особливо роль градієнтної ортогоналізації - залишаються погано вивченими, і дуже мало робіт забезпечують наскрізний аналіз, який ретельно пояснює його переваги в конкретних застосуваннях. Ми робимо крок, вивчаючи ефективність спрощеного варіанту Muon за допомогою двох тематичних досліджень: матричної факторизації та контекстного навчання лінійних трансформаторів. Для обох задач ми доведено, що спрощений мюон лінійно сходиться зі складностями ітерації, незалежно від відповідного номера умови, очевидно перевершуючи градієнтний спуск та Адама. Наш аналіз показує, що динаміка мюонів відокремлюється на сукупність незалежних скалярних послідовностей у спектральній області, кожна з яких демонструє подібну поведінку конвергенції. Наша теорія формалізує ефект попереднього кондиціонування, викликаний спектральною ортогоналізацією, пропонуючи уявлення про ефективність Муона в цих задачах оптимізації матриці та потенційно за їх межами.
At a glance
- Source
- arXiv
- Published
- Jan 19, 2026
- Read time
- 1 min read
- Primary lane
- Machine Learning
Quick read
1 bullets- Оптимізатор Muon, алгоритм структурованого матриці, який використовує спектральну ортогоналізацію градієнтів, є віхою у попередній підготовці великих мовних моделей. Однак основні механізми Muon - особливо роль градієнтної ортогоналізації - залишаються погано вивченими, і дуже мало робіт забезпечують наскрізний аналіз, який ретельно пояснює його переваги в конкретних застосуваннях. Ми робимо крок, вивчаючи ефективність спрощеного варіанту Muon за допомогою двох тематичних досліджень: матричної факторизації та контекстного навчання лінійних трансформаторів. Для обох задач ми доведено, що спрощений мюон лінійно сходиться зі складностями ітерації, незалежно від відповідного номера умови, очевидно перевершуючи градієнтний спуск та Адама. Наш аналіз показує, що динаміка мюонів відокремлюється на сукупність незалежних скалярних послідовностей у спектральній області, кожна з яких демонструє подібну поведінку конвергенції. Наша теорія формалізує ефект попереднього кондиціонування, викликаний спектральною ортогоналізацією, пропонуючи уявлення про ефективність Муона в цих задачах оптимізації матриці та потенційно за їх межами.
Чому це важливо
Оптимізатор Muon, алгоритм структурованого матриці, який використовує спектральну ортогоналізацію градієнтів, є віхою у попередній підготовці великих мовних моделей. Однак основні механізми Muon - особливо роль градієнтної ортогоналізації - залишаються погано вивченими, і дуже мало робіт забезпечують наскрізний аналіз, який ретельно пояснює його переваги в конкретних застосуваннях. Ми робимо крок, вивчаючи ефективність спрощеного варіанту Muon за допомогою двох тематичних досліджень: матричної факторизації та контекстного навчання лінійних трансформаторів. Для обох задач ми доведено, що спрощений мюон лінійно сходиться зі складностями ітерації, незалежно від відповідного номера умови, очевидно перевершуючи градієнтний спуск та Адама. Наш аналіз показує, що динаміка мюонів відокремлюється на сукупність незалежних скалярних послідовностей у спектральній області, кожна з яких демонструє подібну поведінку конвергенції. Наша теорія формалізує ефект попереднього кондиціонування, викликаний спектральною ортогоналізацією, пропонуючи уявлення про ефективність Муона в цих задачах оптимізації матриці та потенційно за їх межами.
Builder takeaway
arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Оптимізатор Muon, алгоритм структурованого матриці, який використовує спектральну ортогоналізацію градієнтів, є віхою у попередній підготовці великих мовних моделей. Однак основні механізми Muon - особливо роль градієнтної ортогоналізації - залишаються погано вивченими, і дуже мало робіт забезпечують наскрізний аналіз, який ретельно пояснює його переваги в конкретних застосуваннях. Ми робимо крок, вивчаючи ефективність спрощеного варіанту Muon за допомогою двох тематичних досліджень: матричної факторизації та контекстного навчання лінійних трансформаторів. Для обох задач ми доведено, що спрощений мюон лінійно сходиться зі складностями ітерації, незалежно від відповідного номера умови, очевидно перевершуючи градієнтний спуск та Адама. Наш аналіз показує, що динаміка мюонів відокремлюється на сукупність незалежних скалярних послідовностей у спектральній області, кожна з яких демонструє подібну поведінку конвергенції. Наша теорія формалізує ефект попереднього кондиціонування, викликаний спектральною ортогоналізацією, пропонуючи уявлення про ефективність Муона в цих задачах оптимізації матриці та потенційно за їх межами.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.