arXiv

FineInstructions: масштабування синтетичних інструкцій до шкали перед навчанням

Створює FineInstructions: мільярди синтетичних пар інструкцій-відповідей, згенерованих із веб-документів за допомогою ~18 мільйонів шаблонів.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Jan 29, 2026
Read time
1 min read
Primary lane
Machine Learning

Quick read

4 bullets
  • Створює FineInstructions: мільярди синтетичних пар інструкцій-відповідей, згенерованих із веб-документів за допомогою ~18 мільйонів шаблонів.
  • Навчання LLM з нуля для мети налаштування інструкцій замість попереднього навчання наступного жетона.
  • Токен за жетоном, попереднє навчання FineInstructions перевершує стандартне попереднє навчання та інші синтетичні методи.
  • Порівнює попередню підготовку з реальним використанням інструкцій і масштабує дані інструкцій без дорогих людських міток.

Чому це важливо

Порівнює попередню підготовку з реальним використанням інструкцій і масштабує дані інструкцій без дорогих людських міток.

Builder takeaway

arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Швидке читання

- Створює FineInstructions: мільярди синтетичних пар інструкцій-відповідей, згенерованих із веб-документів за допомогою ~18 мільйонів шаблонів.

- Навчання LLM з нуля для мети налаштування інструкцій замість попереднього навчання наступного жетона.

- Токен за жетоном, попереднє навчання FineInstructions перевершує стандартне попереднє навчання та інші синтетичні методи.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.