arXiv

Рекурсивні мовні моделі для виявлення втечі з в'язниці: процедурний захист для агентів, доповнених інструментами

— Представлено RLM-JB, рекурсивну процедуру виявлення джейлбрейка для доповнених інструментів агентів, які обробляють ненадійний вміст.

arXiv|Feb 18, 2026|1 min read

Open original

At a glance

Source: arXiv
Published: Feb 18, 2026
Read time: 1 min read
Primary lane: Ai Security

Ai Security Jailbreak Detection Agent Safety

Quick read

4 bullets

— Представлено RLM-JB, рекурсивну процедуру виявлення джейлбрейка для доповнених інструментів агентів, які обробляють ненадійний вміст.
Використовує нормалізацію, деобфускацію, скринінг на рівні фрагментів і агрегацію між фрагментами замість одноразової класифікації.
Досягає сильного запам'ятовування та точності змагальних контрольних тестів джейлбрейка на кількох серверних програмах.
Процедурні засоби захисту краще узгоджуються з реальною поведінкою зловмисника, ніж однопрохідні фільтри, особливо для атак з довгим контекстом і заплутаними підказками.

Чому це важливо

✦

Процедурні засоби захисту краще узгоджуються з реальною поведінкою зловмисника, ніж однопрохідні фільтри, особливо для атак з довгим контекстом і заплутаними підказками.

Builder takeaway

arXiv published this update in the Ai Security lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Швидке читання

- Використовує нормалізацію, деобфускацію, скринінг на рівні фрагментів і агрегацію між фрагментами замість одноразової класифікації.

- Досягає сильного запам'ятовування та точності змагальних контрольних тестів джейлбрейка на кількох серверних програмах.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive