Модель помилок трансформаторів
Ми вивчаємо коефіцієнт помилок LLM у таких завданнях, як арифметика, які вимагають детермінованого результату, та повторювану обробку токенів, отриманих з невеликого набору альтернатив. Ми стверджуємо, що неправильні прогнози виникають, коли невеликі помилки в механізмі уваги накопичуються, щоб переступити поріг, і використовуємо це розуміння для отримання кількісного двопараметричного зв'язку між точністю та складністю завдання. Два параметри змінюються залежно від підказки та моделі; їх можна інтерпретувати з точки зору елементарної частоти шуму та кількості правдоподібних помилкових токенів, які можна передбачити. Наш аналіз натхненний перспективою «ефективної теорії поля»: багато необроблених параметрів LLM можна реорганізувати лише на два параметри, які регулюють частоту помилок. Ми проводимо великі емпіричні тести, використовуючи Gemini 2.5 Flash, Gemini 2.5 Pro та DeepSeek R1, і знаходимо відмінну згоду між прогнозованою та спостережуваною точністю для різних завдань, хоча ми також виявляємо відхилення в деяких випадках. Наша модель надає альтернативу припущенням про те, що помилки, допущені LLM у довгих повторюваних завданнях, вказують на «крах міркувань» або нездатність виражати «композиційні» функції. Нарешті, ми показуємо, як побудувати підказки для зменшення частоти помилок.
At a glance
- Source
- arXiv
- Published
- Jan 20, 2026
- Read time
- 1 min read
- Primary lane
- Machine Learning
Quick read
1 bullets- Ми вивчаємо коефіцієнт помилок LLM у таких завданнях, як арифметика, які вимагають детермінованого результату, та повторювану обробку токенів, отриманих з невеликого набору альтернатив. Ми стверджуємо, що неправильні прогнози виникають, коли невеликі помилки в механізмі уваги накопичуються, щоб переступити поріг, і використовуємо це розуміння для отримання кількісного двопараметричного зв'язку між точністю та складністю завдання. Два параметри змінюються залежно від підказки та моделі; їх можна інтерпретувати з точки зору елементарної частоти шуму та кількості правдоподібних помилкових токенів, які можна передбачити. Наш аналіз натхненний перспективою «ефективної теорії поля»: багато необроблених параметрів LLM можна реорганізувати лише на два параметри, які регулюють частоту помилок. Ми проводимо великі емпіричні тести, використовуючи Gemini 2.5 Flash, Gemini 2.5 Pro та DeepSeek R1, і знаходимо відмінну згоду між прогнозованою та спостережуваною точністю для різних завдань, хоча ми також виявляємо відхилення в деяких випадках. Наша модель надає альтернативу припущенням про те, що помилки, допущені LLM у довгих повторюваних завданнях, вказують на «крах міркувань» або нездатність виражати «композиційні» функції. Нарешті, ми показуємо, як побудувати підказки для зменшення частоти помилок.
Чому це важливо
Ми вивчаємо коефіцієнт помилок LLM у таких завданнях, як арифметика, які вимагають детермінованого результату, та повторювану обробку токенів, отриманих з невеликого набору альтернатив. Ми стверджуємо, що неправильні прогнози виникають, коли невеликі помилки в механізмі уваги накопичуються, щоб переступити поріг, і використовуємо це розуміння для отримання кількісного двопараметричного зв'язку між точністю та складністю завдання. Два параметри змінюються залежно від підказки та моделі; їх можна інтерпретувати з точки зору елементарної частоти шуму та кількості правдоподібних помилкових токенів, які можна передбачити. Наш аналіз натхненний перспективою «ефективної теорії поля»: багато необроблених параметрів LLM можна реорганізувати лише на два параметри, які регулюють частоту помилок. Ми проводимо великі емпіричні тести, використовуючи Gemini 2.5 Flash, Gemini 2.5 Pro та DeepSeek R1, і знаходимо відмінну згоду між прогнозованою та спостережуваною точністю для різних завдань, хоча ми також виявляємо відхилення в деяких випадках. Наша модель надає альтернативу припущенням про те, що помилки, допущені LLM у довгих повторюваних завданнях, вказують на «крах міркувань» або нездатність виражати «композиційні» функції. Нарешті, ми показуємо, як побудувати підказки для зменшення частоти помилок.
Builder takeaway
arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Ми вивчаємо коефіцієнт помилок LLM у таких завданнях, як арифметика, які вимагають детермінованого результату, та повторювану обробку токенів, отриманих з невеликого набору альтернатив. Ми стверджуємо, що неправильні прогнози виникають, коли невеликі помилки в механізмі уваги накопичуються, щоб переступити поріг, і використовуємо це розуміння для отримання кількісного двопараметричного зв'язку між точністю та складністю завдання. Два параметри змінюються залежно від підказки та моделі; їх можна інтерпретувати з точки зору елементарної частоти шуму та кількості правдоподібних помилкових токенів, які можна передбачити. Наш аналіз натхненний перспективою «ефективної теорії поля»: багато необроблених параметрів LLM можна реорганізувати лише на два параметри, які регулюють частоту помилок. Ми проводимо великі емпіричні тести, використовуючи Gemini 2.5 Flash, Gemini 2.5 Pro та DeepSeek R1, і знаходимо відмінну згоду між прогнозованою та спостережуваною точністю для різних завдань, хоча ми також виявляємо відхилення в деяких випадках. Наша модель надає альтернативу припущенням про те, що помилки, допущені LLM у довгих повторюваних завданнях, вказують на «крах міркувань» або нездатність виражати «композиційні» функції. Нарешті, ми показуємо, як побудувати підказки для зменшення частоти помилок.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.