Навчання пояснювати: контрольована атрибуція токенів із шаблонів уваги трансформаторів

Quick read

1 bullets

Розумний штучний інтелект (XAI) став критичним, оскільки моделі на основі трансформаторів розгортаються в додатках з високими ставками, включаючи охорону здоров'я, правові системи та фінансові послуги, де непрозорість перешкоджає довірі та підзвітності. Механізми самоуваги трансформаторів виявилися цінними для інтерпретації моделі, причому ваги уваги успішно використовуються для розуміння фокусу та поведінки моделі (Xu et al., 2015); (Wiegreffe and Pinter, 2019). Однак існуючі методи пояснення, засновані на увазі, спираються на вручну визначені стратегії агрегації та фіксовані правила атрибуції (Abnar and Zuidema, 2020a); (Chefer et al., 2021), тоді як модельно-агностичні підходи (LIME, SHAP) розглядають модель як чорний ящик і несуть значні обчислювальні витрати через збурення вхідних даних. Ми представляємо Explication Network (ExpNet), легку нейронну мережу, яка вивчає явне відображення від моделей уваги трансформаторів до оцінок важливості рівня токенів. На відміну від попередніх методів, ExpNet автоматично виявляє оптимальні комбінації функцій уваги, а не покладаючись на заздалегідь визначені правила. Ми оцінюємо ExpNet у складній установці між завданнями та порівнюємо його з широким спектром модельно-агностичних методів та методів, заснованих на увазі, що охоплюють чотири методологічні сім'ї.

Чому це важливо

✦

Розумний штучний інтелект (XAI) став критичним, оскільки моделі на основі трансформаторів розгортаються в додатках з високими ставками, включаючи охорону здоров'я, правові системи та фінансові послуги, де непрозорість перешкоджає довірі та підзвітності. Механізми самоуваги трансформаторів виявилися цінними для інтерпретації моделі, причому ваги уваги успішно використовуються для розуміння фокусу та поведінки моделі (Xu et al., 2015); (Wiegreffe and Pinter, 2019). Однак існуючі методи пояснення, засновані на увазі, спираються на вручну визначені стратегії агрегації та фіксовані правила атрибуції (Abnar and Zuidema, 2020a); (Chefer et al., 2021), тоді як модельно-агностичні підходи (LIME, SHAP) розглядають модель як чорний ящик і несуть значні обчислювальні витрати через збурення вхідних даних. Ми представляємо Explication Network (ExpNet), легку нейронну мережу, яка вивчає явне відображення від моделей уваги трансформаторів до оцінок важливості рівня токенів. На відміну від попередніх методів, ExpNet автоматично виявляє оптимальні комбінації функцій уваги, а не покладаючись на заздалегідь визначені правила. Ми оцінюємо ExpNet у складній установці між завданнями та порівнюємо його з широким спектром модельно-агностичних методів та методів, заснованих на увазі, що охоплюють чотири методологічні сім'ї.

Builder takeaway

arXiv published this update in the NLP lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Розумний штучний інтелект (XAI) став критичним, оскільки моделі на основі трансформаторів розгортаються в додатках з високими ставками, включаючи охорону здоров'я, правові системи та фінансові послуги, де непрозорість перешкоджає довірі та підзвітності. Механізми самоуваги трансформаторів виявилися цінними для інтерпретації моделі, причому ваги уваги успішно використовуються для розуміння фокусу та поведінки моделі (Xu et al., 2015); (Wiegreffe and Pinter, 2019). Однак існуючі методи пояснення, засновані на увазі, спираються на вручну визначені стратегії агрегації та фіксовані правила атрибуції (Abnar and Zuidema, 2020a); (Chefer et al., 2021), тоді як модельно-агностичні підходи (LIME, SHAP) розглядають модель як чорний ящик і несуть значні обчислювальні витрати через збурення вхідних даних. Ми представляємо Explication Network (ExpNet), легку нейронну мережу, яка вивчає явне відображення від моделей уваги трансформаторів до оцінок важливості рівня токенів. На відміну від попередніх методів, ExpNet автоматично виявляє оптимальні комбінації функцій уваги, а не покладаючись на заздалегідь визначені правила. Ми оцінюємо ExpNet у складній установці між завданнями та порівнюємо його з широким спектром модельно-агностичних методів та методів, заснованих на увазі, що охоплюють чотири методологічні сім'ї.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive