arXiv

Теорія поля безперервної глибини для патчингу трансформерів і механістичної інтерпретованості

Розглядає патчинг трансформерів і механістичну інтерпретованість як теорію поля безперервної глибини над залишковим потоком.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
May 24, 2026
Read time
1 min read
Primary lane
Machine Learning

Quick read

4 bullets
  • Розглядає патчинг трансформерів і механістичну інтерпретованість як теорію поля безперервної глибини над залишковим потоком.
  • Моделює втручання як локалізовані вставки джерел і використовує поля чутливості та відгуки у стилі функцій Гріна для прогнозування подальших ефектів.
  • Емпірично показує на трансформерах у стилі GPT-2, що об'єкти відгуку першого порядку можуть організовувати експерименти з патчингом і переносити поведінку відповідей між різними позиціями.
  • Дослідження інтерпретованості стає кориснішим, коли перестає бути набором локальних трюків і починає давати прогнозну структуру. Якщо цей підхід витримає перевірку, він може спростити міркування про експерименти з патчингом, їх порівняння та автоматизацію для більших сімейств моделей.

Чому це важливо

Дослідження інтерпретованості стає кориснішим, коли перестає бути набором локальних трюків і починає давати прогнозну структуру. Якщо цей підхід витримає перевірку, він може спростити міркування про експерименти з патчингом, їх порівняння та автоматизацію для більших сімейств моделей.

Builder takeaway

arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Коротко

- Розглядає патчинг трансформерів і механістичну інтерпретованість як теорію поля безперервної глибини над залишковим потоком.

- Моделює втручання як локалізовані вставки джерел і використовує поля чутливості та відгуки у стилі функцій Гріна для прогнозування подальших ефектів.

- Емпірично показує на трансформерах у стилі GPT-2, що об'єкти відгуку першого порядку можуть організовувати експерименти з патчингом і переносити поведінку відповідей між різними позиціями.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.