Найкращі з обох світів багатодуельні бандити: уніфіковані алгоритми для стохастичних і суперницьких переваг за цілями Кондорсе та Борда
Основна увага приділяється найкращим у світі бандитам, що грають на кілька дуелей: уніфіковані алгоритми для стохастичних і конкурентних переваг відповідно до цілей Кондорсе та Борда.
At a glance
- Source
- arXiv
- Published
- Mar 7, 2026
- Read time
- 1 min read
- Primary lane
- Machine Learning
Quick read
4 bullets- Основна увага приділяється найкращим у світі бандитам, що грають на кілька дуелей: уніфіковані алгоритми для стохастичних і конкурентних переваг відповідно до цілей Кондорсе та Борда.
- Бандити з кількома дуелями, де учень вибирає m \geq 2 зброї за раунд і спостерігає лише за переможцем, природно виникають у багатьох програмах, включаючи системи рейтингу та рекомендацій, однак фундаментальне питання залишається відкритим: чи може один алгоритм працювати оптимально як у стохастичних, так і в змагальних середовищах, не знаючи, з яким режимом він стикається?
- Створення екземпляра нашого скорочення за допомогою \texttt{Versatile-DB} дає перший найкращий з обох світів алгоритм для бандитів, що б'ються в кількох дуелях: він досягає O(\sqrt{KT}) псевдо-жалю проти суперницьких уподобань та оптимального для екземпляра O\!\left(\sum_{i \neq a^\star} \frac{\log T}{Δ_i}\right) псевдо-жаль за стохастичними перевагами, як одночасно, так і без попереднього знання режиму.
- Вимірювання зміщення є ефективнішим, коли вони визначають, де в мережі знаходиться проблема. Це створює варіанти, крім перенавчання методом грубої сили.
Чому це важливо
Вимірювання зміщення є ефективнішим, коли вони визначають, де в мережі знаходиться проблема. Це створює варіанти, крім перенавчання методом грубої сили.
Builder takeaway
arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Швидке читання
- Основна увага приділяється найкращим у світі бандитам, що грають на кілька дуелей: уніфіковані алгоритми для стохастичних і конкурентних переваг відповідно до цілей Кондорсе та Борда.
- Бандити з кількома дуелями, де учень вибирає m \geq 2 зброї за раунд і спостерігає лише за переможцем, природно виникають у багатьох програмах, включаючи системи рейтингу та рекомендацій, однак фундаментальне питання залишається відкритим: чи може один алгоритм працювати оптимально як у стохастичних, так і в змагальних середовищах, не знаючи, з яким режимом він стикається?
- Створення екземпляра нашого скорочення за допомогою \texttt{Versatile-DB} дає перший найкращий з обох світів алгоритм для бандитів, що б'ються в кількох дуелях: він досягає O(\sqrt{KT}) псевдо-жалю проти суперницьких уподобань та оптимального для екземпляра O\!\left(\sum_{i \neq a^\star} \frac{\log T}{Δ_i}\right) псевдо-жаль за стохастичними перевагами, як одночасно, так і без попереднього знання режиму.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.