arXiv

Доведена стійкість у мультимодальних моделях великої мови за допомогою згладжування простору функцій

Мультимодальні великі мовні моделі (MLLM) демонструють потужні можливості в різноманітних програмах, але залишаються вразливими до суперечливих збурень, які спотворюють представлення їхніх функцій і спонукають до помилкових прогнозів.Щоб усунути цю вразливість, ми пропонуємо згладжування простору функцій (FS) і теоретично доводимо, що FS пропонує сертифіковану надійність представлень функцій MLLM.Зокрема, FS перетворює будь-який кодер ознак у згладжений варіант, який гарантовано зберігає сертифіковану нижню межу косинусної подібності ознак між чистими та змагальними представленнями під атаками, обмеженими $\ell_2$.Більше того, ми вказуємо, що значення цієї межі косинусної подібності ознак (FCSB), отримане з FS, можна покращити шляхом збільшення визначеної оцінки надійності за Гаусом на ванільному кодері.Спираючись на це, ми представляємо Purifier and Smoothness Mapper (PSM), модуль plug-and-play, який покращує оцінку стійкості за Гауссом для MLLM і, таким чином, підвищує їхню сертифіковану надійність у FS, не вимагаючи будь-якого повторного навчання на MLLM.Ми демонструємо, що FS з PSM не тільки забезпечує сильну теоретичну гарантію надійності, але й демонструє чудову емпіричну продуктивність порівняно з змагальним навчанням.Масштабні експерименти з різними MLLM і подальшими завданнями вказують на ефективність FS-PSM, знижуючи коефіцієнт успішності атак (ASR) різних атак білого ящика з майже 90\% до приблизно 1\%.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Jan 22, 2026
Read time
1 min read
Primary lane
Cs.lg

Quick read

1 bullets
  • Мультимодальні великі мовні моделі (MLLM) демонструють потужні можливості в різноманітних програмах, але залишаються вразливими до суперечливих збурень, які спотворюють представлення їхніх функцій і спонукають до помилкових прогнозів.Щоб усунути цю вразливість, ми пропонуємо згладжування простору функцій (FS) і теоретично доводимо, що FS пропонує сертифіковану надійність представлень функцій MLLM.Зокрема, FS перетворює будь-який кодер ознак у згладжений варіант, який гарантовано зберігає сертифіковану нижню межу косинусної подібності ознак між чистими та змагальними представленнями під атаками, обмеженими $\ell_2$.Більше того, ми вказуємо, що значення цієї межі косинусної подібності ознак (FCSB), отримане з FS, можна покращити шляхом збільшення визначеної оцінки надійності за Гаусом на ванільному кодері.Спираючись на це, ми представляємо Purifier and Smoothness Mapper (PSM), модуль plug-and-play, який покращує оцінку стійкості за Гауссом для MLLM і, таким чином, підвищує їхню сертифіковану надійність у FS, не вимагаючи будь-якого повторного навчання на MLLM.Ми демонструємо, що FS з PSM не тільки забезпечує сильну теоретичну гарантію надійності, але й демонструє чудову емпіричну продуктивність порівняно з змагальним навчанням.Масштабні експерименти з різними MLLM і подальшими завданнями вказують на ефективність FS-PSM, знижуючи коефіцієнт успішності атак (ASR) різних атак білого ящика з майже 90\% до приблизно 1\%.

Чому це важливо

Мультимодальні великі мовні моделі (MLLM) демонструють потужні можливості в різноманітних програмах, але залишаються вразливими до суперечливих збурень, які спотворюють представлення їхніх функцій і спонукають до помилкових прогнозів.Щоб усунути цю вразливість, ми пропонуємо згладжування простору функцій (FS) і теоретично доводимо, що FS пропонує сертифіковану надійність представлень функцій MLLM.Зокрема, FS перетворює будь-який кодер ознак у згладжений варіант, який гарантовано зберігає сертифіковану нижню межу косинусної подібності ознак між чистими та змагальними представленнями під атаками, обмеженими $\ell_2$.Більше того, ми вказуємо, що значення цієї межі косинусної подібності ознак (FCSB), отримане з FS, можна покращити шляхом збільшення визначеної оцінки надійності за Гаусом на ванільному кодері.Спираючись на це, ми представляємо Purifier and Smoothness Mapper (PSM), модуль plug-and-play, який покращує оцінку стійкості за Гауссом для MLLM і, таким чином, підвищує їхню сертифіковану надійність у FS, не вимагаючи будь-якого повторного навчання на MLLM.Ми демонструємо, що FS з PSM не тільки забезпечує сильну теоретичну гарантію надійності, але й демонструє чудову емпіричну продуктивність порівняно з змагальним навчанням.Масштабні експерименти з різними MLLM і подальшими завданнями вказують на ефективність FS-PSM, знижуючи коефіцієнт успішності атак (ASR) різних атак білого ящика з майже 90\% до приблизно 1\%.

Builder takeaway

arXiv published this update in the Cs.lg lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Мультимодальні великі мовні моделі (MLLM) демонструють потужні можливості в різноманітних програмах, але залишаються вразливими до суперечливих збурень, які спотворюють представлення їхніх функцій і спонукають до помилкових прогнозів.Щоб усунути цю вразливість, ми пропонуємо згладжування простору функцій (FS) і теоретично доводимо, що FS пропонує сертифіковану надійність представлень функцій MLLM.Зокрема, FS перетворює будь-який кодер ознак у згладжений варіант, який гарантовано зберігає сертифіковану нижню межу косинусної подібності ознак між чистими та змагальними представленнями під атаками, обмеженими $\ell_2$.Більше того, ми вказуємо, що значення цієї межі косинусної подібності ознак (FCSB), отримане з FS, можна покращити шляхом збільшення визначеної оцінки надійності за Гаусом на ванільному кодері.Спираючись на це, ми представляємо Purifier and Smoothness Mapper (PSM), модуль plug-and-play, який покращує оцінку стійкості за Гауссом для MLLM і, таким чином, підвищує їхню сертифіковану надійність у FS, не вимагаючи будь-якого повторного навчання на MLLM.Ми демонструємо, що FS з PSM не тільки забезпечує сильну теоретичну гарантію надійності, але й демонструє чудову емпіричну продуктивність порівняно з змагальним навчанням.Масштабні експерименти з різними MLLM і подальшими завданнями вказують на ефективність FS-PSM, знижуючи коефіцієнт успішності атак (ASR) різних атак білого ящика з майже 90\% до приблизно 1\%.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.