Доведена стійкість у мультимодальних моделях великої мови за допомогою згладжування простору функцій
Мультимодальні великі мовні моделі (MLLM) демонструють потужні можливості в різноманітних програмах, але залишаються вразливими до суперечливих збурень, які спотворюють представлення їхніх функцій і спонукають до помилкових прогнозів.Щоб усунути цю вразливість, ми пропонуємо згладжування простору функцій (FS) і теоретично доводимо, що FS пропонує сертифіковану надійність представлень функцій MLLM.Зокрема, FS перетворює будь-який кодер ознак у згладжений варіант, який гарантовано зберігає сертифіковану нижню межу косинусної подібності ознак між чистими та змагальними представленнями під атаками, обмеженими $\ell_2$.Більше того, ми вказуємо, що значення цієї межі косинусної подібності ознак (FCSB), отримане з FS, можна покращити шляхом збільшення визначеної оцінки надійності за Гаусом на ванільному кодері.Спираючись на це, ми представляємо Purifier and Smoothness Mapper (PSM), модуль plug-and-play, який покращує оцінку стійкості за Гауссом для MLLM і, таким чином, підвищує їхню сертифіковану надійність у FS, не вимагаючи будь-якого повторного навчання на MLLM.Ми демонструємо, що FS з PSM не тільки забезпечує сильну теоретичну гарантію надійності, але й демонструє чудову емпіричну продуктивність порівняно з змагальним навчанням.Масштабні експерименти з різними MLLM і подальшими завданнями вказують на ефективність FS-PSM, знижуючи коефіцієнт успішності атак (ASR) різних атак білого ящика з майже 90\% до приблизно 1\%.
Quick read
1 bullets- Мультимодальні великі мовні моделі (MLLM) демонструють потужні можливості в різноманітних програмах, але залишаються вразливими до суперечливих збурень, які спотворюють представлення їхніх функцій і спонукають до помилкових прогнозів.Щоб усунути цю вразливість, ми пропонуємо згладжування простору функцій (FS) і теоретично доводимо, що FS пропонує сертифіковану надійність представлень функцій MLLM.Зокрема, FS перетворює будь-який кодер ознак у згладжений варіант, який гарантовано зберігає сертифіковану нижню межу косинусної подібності ознак між чистими та змагальними представленнями під атаками, обмеженими $\ell_2$.Більше того, ми вказуємо, що значення цієї межі косинусної подібності ознак (FCSB), отримане з FS, можна покращити шляхом збільшення визначеної оцінки надійності за Гаусом на ванільному кодері.Спираючись на це, ми представляємо Purifier and Smoothness Mapper (PSM), модуль plug-and-play, який покращує оцінку стійкості за Гауссом для MLLM і, таким чином, підвищує їхню сертифіковану надійність у FS, не вимагаючи будь-якого повторного навчання на MLLM.Ми демонструємо, що FS з PSM не тільки забезпечує сильну теоретичну гарантію надійності, але й демонструє чудову емпіричну продуктивність порівняно з змагальним навчанням.Масштабні експерименти з різними MLLM і подальшими завданнями вказують на ефективність FS-PSM, знижуючи коефіцієнт успішності атак (ASR) різних атак білого ящика з майже 90\% до приблизно 1\%.
Чому це важливо
Мультимодальні великі мовні моделі (MLLM) демонструють потужні можливості в різноманітних програмах, але залишаються вразливими до суперечливих збурень, які спотворюють представлення їхніх функцій і спонукають до помилкових прогнозів.Щоб усунути цю вразливість, ми пропонуємо згладжування простору функцій (FS) і теоретично доводимо, що FS пропонує сертифіковану надійність представлень функцій MLLM.Зокрема, FS перетворює будь-який кодер ознак у згладжений варіант, який гарантовано зберігає сертифіковану нижню межу косинусної подібності ознак між чистими та змагальними представленнями під атаками, обмеженими $\ell_2$.Більше того, ми вказуємо, що значення цієї межі косинусної подібності ознак (FCSB), отримане з FS, можна покращити шляхом збільшення визначеної оцінки надійності за Гаусом на ванільному кодері.Спираючись на це, ми представляємо Purifier and Smoothness Mapper (PSM), модуль plug-and-play, який покращує оцінку стійкості за Гауссом для MLLM і, таким чином, підвищує їхню сертифіковану надійність у FS, не вимагаючи будь-якого повторного навчання на MLLM.Ми демонструємо, що FS з PSM не тільки забезпечує сильну теоретичну гарантію надійності, але й демонструє чудову емпіричну продуктивність порівняно з змагальним навчанням.Масштабні експерименти з різними MLLM і подальшими завданнями вказують на ефективність FS-PSM, знижуючи коефіцієнт успішності атак (ASR) різних атак білого ящика з майже 90\% до приблизно 1\%.
Builder takeaway
arXiv published this update in the Cs.lg lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Мультимодальні великі мовні моделі (MLLM) демонструють потужні можливості в різноманітних програмах, але залишаються вразливими до суперечливих збурень, які спотворюють представлення їхніх функцій і спонукають до помилкових прогнозів.Щоб усунути цю вразливість, ми пропонуємо згладжування простору функцій (FS) і теоретично доводимо, що FS пропонує сертифіковану надійність представлень функцій MLLM.Зокрема, FS перетворює будь-який кодер ознак у згладжений варіант, який гарантовано зберігає сертифіковану нижню межу косинусної подібності ознак між чистими та змагальними представленнями під атаками, обмеженими $\ell_2$.Більше того, ми вказуємо, що значення цієї межі косинусної подібності ознак (FCSB), отримане з FS, можна покращити шляхом збільшення визначеної оцінки надійності за Гаусом на ванільному кодері.Спираючись на це, ми представляємо Purifier and Smoothness Mapper (PSM), модуль plug-and-play, який покращує оцінку стійкості за Гауссом для MLLM і, таким чином, підвищує їхню сертифіковану надійність у FS, не вимагаючи будь-якого повторного навчання на MLLM.Ми демонструємо, що FS з PSM не тільки забезпечує сильну теоретичну гарантію надійності, але й демонструє чудову емпіричну продуктивність порівняно з змагальним навчанням.Масштабні експерименти з різними MLLM і подальшими завданнями вказують на ефективність FS-PSM, знижуючи коефіцієнт успішності атак (ASR) різних атак білого ящика з майже 90\% до приблизно 1\%.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.