Переваги попереднього кондиціонування спектральної ортогоналізації в мюоні

Quick read

1 bullets

Оптимізатор Muon, алгоритм структурованого матриці, який використовує спектральну ортогоналізацію градієнтів, є віхою у попередній підготовці великих мовних моделей. Однак основні механізми Muon - особливо роль градієнтної ортогоналізації - залишаються погано вивченими, і дуже мало робіт забезпечують наскрізний аналіз, який ретельно пояснює його переваги в конкретних застосуваннях. Ми робимо крок, вивчаючи ефективність спрощеного варіанту Muon за допомогою двох тематичних досліджень: матричної факторизації та контекстного навчання лінійних трансформаторів. Для обох задач ми доведено, що спрощений мюон лінійно сходиться зі складностями ітерації, незалежно від відповідного номера умови, очевидно перевершуючи градієнтний спуск та Адама. Наш аналіз показує, що динаміка мюонів відокремлюється на сукупність незалежних скалярних послідовностей у спектральній області, кожна з яких демонструє подібну поведінку конвергенції. Наша теорія формалізує ефект попереднього кондиціонування, викликаний спектральною ортогоналізацією, пропонуючи уявлення про ефективність Муона в цих задачах оптимізації матриці та потенційно за їх межами.

Чому це важливо

✦

Оптимізатор Muon, алгоритм структурованого матриці, який використовує спектральну ортогоналізацію градієнтів, є віхою у попередній підготовці великих мовних моделей. Однак основні механізми Muon - особливо роль градієнтної ортогоналізації - залишаються погано вивченими, і дуже мало робіт забезпечують наскрізний аналіз, який ретельно пояснює його переваги в конкретних застосуваннях. Ми робимо крок, вивчаючи ефективність спрощеного варіанту Muon за допомогою двох тематичних досліджень: матричної факторизації та контекстного навчання лінійних трансформаторів. Для обох задач ми доведено, що спрощений мюон лінійно сходиться зі складностями ітерації, незалежно від відповідного номера умови, очевидно перевершуючи градієнтний спуск та Адама. Наш аналіз показує, що динаміка мюонів відокремлюється на сукупність незалежних скалярних послідовностей у спектральній області, кожна з яких демонструє подібну поведінку конвергенції. Наша теорія формалізує ефект попереднього кондиціонування, викликаний спектральною ортогоналізацією, пропонуючи уявлення про ефективність Муона в цих задачах оптимізації матриці та потенційно за їх межами.

Builder takeaway

arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Оптимізатор Muon, алгоритм структурованого матриці, який використовує спектральну ортогоналізацію градієнтів, є віхою у попередній підготовці великих мовних моделей. Однак основні механізми Muon - особливо роль градієнтної ортогоналізації - залишаються погано вивченими, і дуже мало робіт забезпечують наскрізний аналіз, який ретельно пояснює його переваги в конкретних застосуваннях. Ми робимо крок, вивчаючи ефективність спрощеного варіанту Muon за допомогою двох тематичних досліджень: матричної факторизації та контекстного навчання лінійних трансформаторів. Для обох задач ми доведено, що спрощений мюон лінійно сходиться зі складностями ітерації, незалежно від відповідного номера умови, очевидно перевершуючи градієнтний спуск та Адама. Наш аналіз показує, що динаміка мюонів відокремлюється на сукупність незалежних скалярних послідовностей у спектральній області, кожна з яких демонструє подібну поведінку конвергенції. Наша теорія формалізує ефект попереднього кондиціонування, викликаний спектральною ортогоналізацією, пропонуючи уявлення про ефективність Муона в цих задачах оптимізації матриці та потенційно за їх межами.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive