arXiv

Більше того, що здається необхідним: приховані переваги від масштабування тривалості міркування під час навчання під наглядом за результатами

Вивчає тривалість міркування під час навчання як ручку масштабування (бюджети жетонів у RL, підрахунок циклів у циклічних трансформерах).

arXiv|Jan 31, 2026|1 min read

Open original

At a glance

Source: arXiv
Published: Jan 31, 2026
Read time: 1 min read
Primary lane: Cs.lg

Cs.lg Machine Learning Reasoning

Quick read

4 bullets

Вивчає тривалість міркування під час навчання як ручку масштабування (бюджети жетонів у RL, підрахунок циклів у циклічних трансформерах).
Дізнається, що ефективність поза розповсюдженням може продовжувати покращуватися за допомогою більш тривалого навчання, навіть після того, як перевірка в розповсюдженні насичена під наглядом лише за результатами.
Пояснює ефект сильнішим індуктивним зміщенням від самоітерації та меншою залежністю від ярликів у розподілі.
Якщо ви налаштовуєтеся лише на перевірку в розповсюдженні, ви можете припинити збільшення бюджетів аргументації занадто рано та втратити підвищення надійності, яке відображається лише на складніших або зміщених наборах тестів.

Чому це важливо

✦

Якщо ви налаштовуєтеся лише на перевірку в розповсюдженні, ви можете припинити збільшення бюджетів аргументації занадто рано та втратити підвищення надійності, яке відображається лише на складніших або зміщених наборах тестів.

Builder takeaway

arXiv published this update in the Cs.lg lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Швидке читання

- Вивчає тривалість міркування під час навчання як ручку масштабування (бюджети жетонів у RL, підрахунок циклів у циклічних трансформерах).

- Дізнається, що ефективність поза розповсюдженням може продовжувати покращуватися за допомогою більш тривалого навчання, навіть після того, як перевірка в розповсюдженні насичена під наглядом лише за результатами.

- Пояснює ефект сильнішим індуктивним зміщенням від самоітерації та меншою залежністю від ярликів у розподілі.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive