Трансформатор сегмента Fusion: двонаправлена увага, керована увагою, мережа злиття для виявлення музики

Quick read

1 bullets

З появою генеративної технології штучного інтелекту тепер кожен може легко створювати та розгортати музику, створену штучним інтелектом, що посилило потребу в технічних рішеннях для вирішення питань авторського права та власності. Хоча існуючі роботи в основному зосереджені на короткому аудіо, проблема виявлення повного аудіо, яка вимагає моделювання довгострокової структури та контексту, залишається недостатньо дослідженою. Для вирішення цього питання ми пропонуємо вдосконалену версію сегментного трансформатора, яка називається трансформатором Fusion Segment Transformer. Як і в нашій попередній роботі, ми витягуємо вбудовування вмісту з коротких музичних сегментів за допомогою різноманітних екстракторів функцій. Крім того, ми покращуємо архітектуру для повного аудіо виявлення музики, створеної штучним інтелектом, впроваджуючи Gated Fusion Layer, який ефективно інтегрує вміст та структурну інформацію, дозволяючи захоплювати довгостроковий контекст. Експерименти над наборами даних SONICS та AIME показують, що наш підхід перевершує попередню модель та останні базові лінії, досягаючи найсучасніших результатів у виявленні музики, створеної штучним інтелектом.

Чому це важливо

✦

З появою генеративної технології штучного інтелекту тепер кожен може легко створювати та розгортати музику, створену штучним інтелектом, що посилило потребу в технічних рішеннях для вирішення питань авторського права та власності. Хоча існуючі роботи в основному зосереджені на короткому аудіо, проблема виявлення повного аудіо, яка вимагає моделювання довгострокової структури та контексту, залишається недостатньо дослідженою. Для вирішення цього питання ми пропонуємо вдосконалену версію сегментного трансформатора, яка називається трансформатором Fusion Segment Transformer. Як і в нашій попередній роботі, ми витягуємо вбудовування вмісту з коротких музичних сегментів за допомогою різноманітних екстракторів функцій. Крім того, ми покращуємо архітектуру для повного аудіо виявлення музики, створеної штучним інтелектом, впроваджуючи Gated Fusion Layer, який ефективно інтегрує вміст та структурну інформацію, дозволяючи захоплювати довгостроковий контекст. Експерименти над наборами даних SONICS та AIME показують, що наш підхід перевершує попередню модель та останні базові лінії, досягаючи найсучасніших результатів у виявленні музики, створеної штучним інтелектом.

Builder takeaway

arXiv published this update in the Cs.sd lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

З появою генеративної технології штучного інтелекту тепер кожен може легко створювати та розгортати музику, створену штучним інтелектом, що посилило потребу в технічних рішеннях для вирішення питань авторського права та власності. Хоча існуючі роботи в основному зосереджені на короткому аудіо, проблема виявлення повного аудіо, яка вимагає моделювання довгострокової структури та контексту, залишається недостатньо дослідженою. Для вирішення цього питання ми пропонуємо вдосконалену версію сегментного трансформатора, яка називається трансформатором Fusion Segment Transformer. Як і в нашій попередній роботі, ми витягуємо вбудовування вмісту з коротких музичних сегментів за допомогою різноманітних екстракторів функцій. Крім того, ми покращуємо архітектуру для повного аудіо виявлення музики, створеної штучним інтелектом, впроваджуючи Gated Fusion Layer, який ефективно інтегрує вміст та структурну інформацію, дозволяючи захоплювати довгостроковий контекст. Експерименти над наборами даних SONICS та AIME показують, що наш підхід перевершує попередню модель та останні базові лінії, досягаючи найсучасніших результатів у виявленні музики, створеної штучним інтелектом.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive