arXiv

Поведінковий відбиток для великих мовних моделей: відстеження походження за допомогою векторів відмови

Розробляє вектори відмови як поведінкові відбитки пальців, отримані з шаблонів безпеки.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Feb 9, 2026
Read time
1 min read
Primary lane
Llm Safety

Quick read

4 bullets
  • Розробляє вектори відмови як поведінкові відбитки пальців, отримані з шаблонів безпеки.
  • Порівнює вектори між моделями, щоб зробити висновок про походження, не перевіряючи ваги чи дані.
  • Показує, що вектори залишаються стабільними, навіть якщо поведінка трохи налаштована.
  • Відстеження походження за допомогою поведінки відмови вирішує проблеми з інтелектуальною власністю та безпекою щодо клонів LLM нижче за течією.

Чому це важливо

Відстеження походження за допомогою поведінки відмови вирішує проблеми з інтелектуальною власністю та безпекою щодо клонів LLM нижче за течією.

Builder takeaway

arXiv published this update in the Llm Safety lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Швидке читання

- Розробляє вектори відмови як поведінкові відбитки пальців, отримані з шаблонів безпеки.

- Порівнює вектори між моделями, щоб зробити висновок про походження, не перевіряючи ваги чи дані.

- Показує, що вектори залишаються стабільними, навіть якщо поведінка трохи налаштована.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.