Ефективна наскрізна структура для динамічних мовних мереж на основі дистиляції (DLD)

Quick read

1 bullets

Пристрої Edge працюють в умовах обмежених і змінних параметрів ресурсів, вимагаючи динамічних архітектур, які можуть адаптуватися до обмежень доступних ресурсів.Щоб задовольнити такі вимоги, зазвичай використовується підхід із відкиданням рівня ($\mathcal{LD}$) для перетворення статичних моделей у динамічні шляхом пропуску частин мережі разом із зменшенням загальної обчислювальної складності.Однак існуючі методи $\mathcal{LD}$ значно впливають на продуктивність динамічної моделі для випадків низького та високого падіння, погіршуючи компроміс між продуктивністю та обчисленням.З цією метою ми пропонуємо фреймворк на основі дистиляції (DLD), який ефективно поєднує можливості дистиляції знань і $\mathcal{LD}$ наскрізним способом, завдяки чому досягається найсучасніша продуктивність для динамічних мовних мереж.Всебічні експерименти з використанням добре відомих методів розпізнавання мовлення, включаючи conformer і WavLM, на трьох загальнодоступних контрольних тестах демонструють ефективність нашої системи, знижуючи рівень помилок у словах на $9,32\%$ і $2,25\%$ для великих випадків і без випадання зі скороченням часу навчання на $33,3\%$.

Чому це важливо

✦

Пристрої Edge працюють в умовах обмежених і змінних параметрів ресурсів, вимагаючи динамічних архітектур, які можуть адаптуватися до обмежень доступних ресурсів.Щоб задовольнити такі вимоги, зазвичай використовується підхід із відкиданням рівня ($\mathcal{LD}$) для перетворення статичних моделей у динамічні шляхом пропуску частин мережі разом із зменшенням загальної обчислювальної складності.Однак існуючі методи $\mathcal{LD}$ значно впливають на продуктивність динамічної моделі для випадків низького та високого падіння, погіршуючи компроміс між продуктивністю та обчисленням.З цією метою ми пропонуємо фреймворк на основі дистиляції (DLD), який ефективно поєднує можливості дистиляції знань і $\mathcal{LD}$ наскрізним способом, завдяки чому досягається найсучасніша продуктивність для динамічних мовних мереж.Всебічні експерименти з використанням добре відомих методів розпізнавання мовлення, включаючи conformer і WavLM, на трьох загальнодоступних контрольних тестах демонструють ефективність нашої системи, знижуючи рівень помилок у словах на $9,32\%$ і $2,25\%$ для великих випадків і без випадання зі скороченням часу навчання на $33,3\%$.

Builder takeaway

arXiv published this update in the Cs.sd lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Пристрої Edge працюють в умовах обмежених і змінних параметрів ресурсів, вимагаючи динамічних архітектур, які можуть адаптуватися до обмежень доступних ресурсів.Щоб задовольнити такі вимоги, зазвичай використовується підхід із відкиданням рівня ($\mathcal{LD}$) для перетворення статичних моделей у динамічні шляхом пропуску частин мережі разом із зменшенням загальної обчислювальної складності.Однак існуючі методи $\mathcal{LD}$ значно впливають на продуктивність динамічної моделі для випадків низького та високого падіння, погіршуючи компроміс між продуктивністю та обчисленням.З цією метою ми пропонуємо фреймворк на основі дистиляції (DLD), який ефективно поєднує можливості дистиляції знань і $\mathcal{LD}$ наскрізним способом, завдяки чому досягається найсучасніша продуктивність для динамічних мовних мереж.Всебічні експерименти з використанням добре відомих методів розпізнавання мовлення, включаючи conformer і WavLM, на трьох загальнодоступних контрольних тестах демонструють ефективність нашої системи, знижуючи рівень помилок у словах на $9,32\%$ і $2,25\%$ для великих випадків і без випадання зі скороченням часу навчання на $33,3\%$.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive