Безперервне навчання з поступовим доменом для надійного та ефективного виявлення ключових слів у системах з обмеженими ресурсами

Quick read

1 bullets

Системи виявлення ключових слів (KWS) із невеликими моделями, розгорнутими на периферійних пристроях, стикаються зі значними проблемами щодо точності та надійності через зміщення доменів, викликані різними шумами та умовами запису.Щоб вирішити цю проблему, ми пропонуємо комплексну структуру для постійного навчання, розроблену для адаптації до нових областей, зберігаючи ефективність обчислень.Запропонований конвеєр інтегрує згорткову нейронну мережу з подвійним входом, використовуючи частотні кепстральні коефіцієнти Mel (MFCC) і функції Mel-спектрограми, що підтримується багатоступеневим процесом шумозаглушення, що включає дискретне вейвлет-перетворення та методи спектрального віднімання, а також блоки оновлення моделі та прототипу.На відміну від попередніх методів, які обмежують оновлення певними шарами, наш підхід оновлює повну квантовану модель, що стало можливим завдяки компактній архітектурі моделі.Підмножина вхідних зразків вибирається під час виконання за допомогою прототипів класів і фільтрації, керованої довірою, які потім псевдо-маркуються та поєднуються з репетиційним буфером для поступового перенавчання моделі.Експериментальні результати тестового набору шумових даних демонструють ефективність інфраструктури, досягаючи 99,63\% точності на чистих даних і зберігаючи надійну продуктивність (понад 94\% точність) у різноманітних шумних середовищах, навіть при співвідношенні сигнал/шум -10 дБ.Запропонована структура підтверджує, що інтеграція ефективного видалення шуму з постійним навчанням на основі прототипу дозволяє моделям KWS працювати автономно та надійно в динамічних середовищах з обмеженими ресурсами.

Чому це важливо

✦

Системи виявлення ключових слів (KWS) із невеликими моделями, розгорнутими на периферійних пристроях, стикаються зі значними проблемами щодо точності та надійності через зміщення доменів, викликані різними шумами та умовами запису.Щоб вирішити цю проблему, ми пропонуємо комплексну структуру для постійного навчання, розроблену для адаптації до нових областей, зберігаючи ефективність обчислень.Запропонований конвеєр інтегрує згорткову нейронну мережу з подвійним входом, використовуючи частотні кепстральні коефіцієнти Mel (MFCC) і функції Mel-спектрограми, що підтримується багатоступеневим процесом шумозаглушення, що включає дискретне вейвлет-перетворення та методи спектрального віднімання, а також блоки оновлення моделі та прототипу.На відміну від попередніх методів, які обмежують оновлення певними шарами, наш підхід оновлює повну квантовану модель, що стало можливим завдяки компактній архітектурі моделі.Підмножина вхідних зразків вибирається під час виконання за допомогою прототипів класів і фільтрації, керованої довірою, які потім псевдо-маркуються та поєднуються з репетиційним буфером для поступового перенавчання моделі.Експериментальні результати тестового набору шумових даних демонструють ефективність інфраструктури, досягаючи 99,63\% точності на чистих даних і зберігаючи надійну продуктивність (понад 94\% точність) у різноманітних шумних середовищах, навіть при співвідношенні сигнал/шум -10 дБ.Запропонована структура підтверджує, що інтеграція ефективного видалення шуму з постійним навчанням на основі прототипу дозволяє моделям KWS працювати автономно та надійно в динамічних середовищах з обмеженими ресурсами.

Builder takeaway

arXiv published this update in the Cs.sd lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Системи виявлення ключових слів (KWS) із невеликими моделями, розгорнутими на периферійних пристроях, стикаються зі значними проблемами щодо точності та надійності через зміщення доменів, викликані різними шумами та умовами запису.Щоб вирішити цю проблему, ми пропонуємо комплексну структуру для постійного навчання, розроблену для адаптації до нових областей, зберігаючи ефективність обчислень.Запропонований конвеєр інтегрує згорткову нейронну мережу з подвійним входом, використовуючи частотні кепстральні коефіцієнти Mel (MFCC) і функції Mel-спектрограми, що підтримується багатоступеневим процесом шумозаглушення, що включає дискретне вейвлет-перетворення та методи спектрального віднімання, а також блоки оновлення моделі та прототипу.На відміну від попередніх методів, які обмежують оновлення певними шарами, наш підхід оновлює повну квантовану модель, що стало можливим завдяки компактній архітектурі моделі.Підмножина вхідних зразків вибирається під час виконання за допомогою прототипів класів і фільтрації, керованої довірою, які потім псевдо-маркуються та поєднуються з репетиційним буфером для поступового перенавчання моделі.Експериментальні результати тестового набору шумових даних демонструють ефективність інфраструктури, досягаючи 99,63\% точності на чистих даних і зберігаючи надійну продуктивність (понад 94\% точність) у різноманітних шумних середовищах, навіть при співвідношенні сигнал/шум -10 дБ.Запропонована структура підтверджує, що інтеграція ефективного видалення шуму з постійним навчанням на основі прототипу дозволяє моделям KWS працювати автономно та надійно в динамічних середовищах з обмеженими ресурсами.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive