Рекурсивні мовні моделі для виявлення втечі з в'язниці: процедурний захист для агентів, доповнених інструментами
— Представлено RLM-JB, рекурсивну процедуру виявлення джейлбрейка для доповнених інструментів агентів, які обробляють ненадійний вміст.
At a glance
- Source
- arXiv
- Published
- Feb 18, 2026
- Read time
- 1 min read
- Primary lane
- Ai Security
Quick read
4 bullets- — Представлено RLM-JB, рекурсивну процедуру виявлення джейлбрейка для доповнених інструментів агентів, які обробляють ненадійний вміст.
- Використовує нормалізацію, деобфускацію, скринінг на рівні фрагментів і агрегацію між фрагментами замість одноразової класифікації.
- Досягає сильного запам'ятовування та точності змагальних контрольних тестів джейлбрейка на кількох серверних програмах.
- Процедурні засоби захисту краще узгоджуються з реальною поведінкою зловмисника, ніж однопрохідні фільтри, особливо для атак з довгим контекстом і заплутаними підказками.
Чому це важливо
Процедурні засоби захисту краще узгоджуються з реальною поведінкою зловмисника, ніж однопрохідні фільтри, особливо для атак з довгим контекстом і заплутаними підказками.
Builder takeaway
arXiv published this update in the Ai Security lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Швидке читання
— Представлено RLM-JB, рекурсивну процедуру виявлення джейлбрейка для доповнених інструментів агентів, які обробляють ненадійний вміст.
- Використовує нормалізацію, деобфускацію, скринінг на рівні фрагментів і агрегацію між фрагментами замість одноразової класифікації.
- Досягає сильного запам'ятовування та точності змагальних контрольних тестів джейлбрейка на кількох серверних програмах.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.