Трансплантація нейронних органів (NOT): модульна адаптація на основі контрольних точок для моделей трансформаторів

Quick read

1 bullets

Ми представляємо трансплантацію нейронних органів (NOT), модульну систему адаптації, яка дозволяє навченим шарам трансформатора функціонувати як багаторазові передавальні контрольні точки для адаптації домену. На відміну від звичайних підходів до тонкої настройки, які щільно поєднують навчені параметри з конкретними екземплярами моделі та навчальними даними, NOT витягує підмножини суміжних шарів («донорські органи») з попередньо навчених моделей, навчає їх незалежно на даних, специфічних для домену та зберігає їх як окремі файли контрольних точок, які можна пересадити в сумісні моделі реципієнтів без доступу до вихідних навчальних даних. Завдяки експериментам над трьома архітектурами трансформаторів лише для декодерів, що охоплюють параметри від 124M до 20B (GPT-2, TinylLama та GPT-OSS), ми демонструємо, що трансплантація донора значно перевершує існуючі методи адаптації, досягаючи порядку покращення здивування над LoRa під час навчання значно швидше. Метод демонструє залежність від положення, при цьому ранні позиції вставки дають оптимальні результати. Передача між доменами в масштабі мільярдів параметрів виявляє несподівані переваги регуляризації. Ці висновки демонструють, що середні шари трансформатора можуть підтримувати ефективну модульну передачу для архітектур лише для декодерів, що дозволяє обмінюватися досвідом із збереження конфіденційності через розподіл контрольних точок. Зауважимо, що цей підхід наразі обмежений моделями лише декодерів; попередні експерименти з архітектурами на основі кодерів показують знижену ефективність.

Чому це важливо

✦

Ми представляємо трансплантацію нейронних органів (NOT), модульну систему адаптації, яка дозволяє навченим шарам трансформатора функціонувати як багаторазові передавальні контрольні точки для адаптації домену. На відміну від звичайних підходів до тонкої настройки, які щільно поєднують навчені параметри з конкретними екземплярами моделі та навчальними даними, NOT витягує підмножини суміжних шарів («донорські органи») з попередньо навчених моделей, навчає їх незалежно на даних, специфічних для домену та зберігає їх як окремі файли контрольних точок, які можна пересадити в сумісні моделі реципієнтів без доступу до вихідних навчальних даних. Завдяки експериментам над трьома архітектурами трансформаторів лише для декодерів, що охоплюють параметри від 124M до 20B (GPT-2, TinylLama та GPT-OSS), ми демонструємо, що трансплантація донора значно перевершує існуючі методи адаптації, досягаючи порядку покращення здивування над LoRa під час навчання значно швидше. Метод демонструє залежність від положення, при цьому ранні позиції вставки дають оптимальні результати. Передача між доменами в масштабі мільярдів параметрів виявляє несподівані переваги регуляризації. Ці висновки демонструють, що середні шари трансформатора можуть підтримувати ефективну модульну передачу для архітектур лише для декодерів, що дозволяє обмінюватися досвідом із збереження конфіденційності через розподіл контрольних точок. Зауважимо, що цей підхід наразі обмежений моделями лише декодерів; попередні експерименти з архітектурами на основі кодерів показують знижену ефективність.

Builder takeaway

arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Ми представляємо трансплантацію нейронних органів (NOT), модульну систему адаптації, яка дозволяє навченим шарам трансформатора функціонувати як багаторазові передавальні контрольні точки для адаптації домену. На відміну від звичайних підходів до тонкої настройки, які щільно поєднують навчені параметри з конкретними екземплярами моделі та навчальними даними, NOT витягує підмножини суміжних шарів («донорські органи») з попередньо навчених моделей, навчає їх незалежно на даних, специфічних для домену та зберігає їх як окремі файли контрольних точок, які можна пересадити в сумісні моделі реципієнтів без доступу до вихідних навчальних даних. Завдяки експериментам над трьома архітектурами трансформаторів лише для декодерів, що охоплюють параметри від 124M до 20B (GPT-2, TinylLama та GPT-OSS), ми демонструємо, що трансплантація донора значно перевершує існуючі методи адаптації, досягаючи порядку покращення здивування над LoRa під час навчання значно швидше. Метод демонструє залежність від положення, при цьому ранні позиції вставки дають оптимальні результати. Передача між доменами в масштабі мільярдів параметрів виявляє несподівані переваги регуляризації. Ці висновки демонструють, що середні шари трансформатора можуть підтримувати ефективну модульну передачу для архітектур лише для декодерів, що дозволяє обмінюватися досвідом із збереження конфіденційності через розподіл контрольних точок. Зауважимо, що цей підхід наразі обмежений моделями лише декодерів; попередні експерименти з архітектурами на основі кодерів показують знижену ефективність.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive