arXiv

Поведінковий відбиток для великих мовних моделей: відстеження походження за допомогою векторів відмови

Розробляє вектори відмови як поведінкові відбитки пальців, отримані з шаблонів безпеки.

arXiv|Feb 9, 2026|1 min read

Open original

At a glance

Source: arXiv
Published: Feb 9, 2026
Read time: 1 min read
Primary lane: Llm Safety

Llm Safety Provenance

Quick read

4 bullets

Розробляє вектори відмови як поведінкові відбитки пальців, отримані з шаблонів безпеки.
Порівнює вектори між моделями, щоб зробити висновок про походження, не перевіряючи ваги чи дані.
Показує, що вектори залишаються стабільними, навіть якщо поведінка трохи налаштована.
Відстеження походження за допомогою поведінки відмови вирішує проблеми з інтелектуальною власністю та безпекою щодо клонів LLM нижче за течією.

Чому це важливо

✦

Відстеження походження за допомогою поведінки відмови вирішує проблеми з інтелектуальною власністю та безпекою щодо клонів LLM нижче за течією.

Builder takeaway

arXiv published this update in the Llm Safety lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Швидке читання

- Розробляє вектори відмови як поведінкові відбитки пальців, отримані з шаблонів безпеки.

- Порівнює вектори між моделями, щоб зробити висновок про походження, не перевіряючи ваги чи дані.

- Показує, що вектори залишаються стабільними, навіть якщо поведінка трохи налаштована.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive