arXiv

Найкращі з обох світів багатодуельні бандити: уніфіковані алгоритми для стохастичних і суперницьких переваг за цілями Кондорсе та Борда

Основна увага приділяється найкращим у світі бандитам, що грають на кілька дуелей: уніфіковані алгоритми для стохастичних і конкурентних переваг відповідно до цілей Кондорсе та Борда.

arXiv|Mar 7, 2026|1 min read

Open original

At a glance

Source: arXiv
Published: Mar 7, 2026
Read time: 1 min read
Primary lane: Machine Learning

Machine Learning Fairness

Quick read

4 bullets

Основна увага приділяється найкращим у світі бандитам, що грають на кілька дуелей: уніфіковані алгоритми для стохастичних і конкурентних переваг відповідно до цілей Кондорсе та Борда.
Бандити з кількома дуелями, де учень вибирає m \geq 2 зброї за раунд і спостерігає лише за переможцем, природно виникають у багатьох програмах, включаючи системи рейтингу та рекомендацій, однак фундаментальне питання залишається відкритим: чи може один алгоритм працювати оптимально як у стохастичних, так і в змагальних середовищах, не знаючи, з яким режимом він стикається?
Створення екземпляра нашого скорочення за допомогою \texttt{Versatile-DB} дає перший найкращий з обох світів алгоритм для бандитів, що б'ються в кількох дуелях: він досягає O(\sqrt{KT}) псевдо-жалю проти суперницьких уподобань та оптимального для екземпляра O\!\left(\sum_{i \neq a^\star} \frac{\log T}{Δ_i}\right) псевдо-жаль за стохастичними перевагами, як одночасно, так і без попереднього знання режиму.
Вимірювання зміщення є ефективнішим, коли вони визначають, де в мережі знаходиться проблема. Це створює варіанти, крім перенавчання методом грубої сили.

Чому це важливо

✦

Вимірювання зміщення є ефективнішим, коли вони визначають, де в мережі знаходиться проблема. Це створює варіанти, крім перенавчання методом грубої сили.

Builder takeaway

arXiv published this update in the Machine Learning lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Швидке читання

- Основна увага приділяється найкращим у світі бандитам, що грають на кілька дуелей: уніфіковані алгоритми для стохастичних і конкурентних переваг відповідно до цілей Кондорсе та Борда.

- Бандити з кількома дуелями, де учень вибирає m \geq 2 зброї за раунд і спостерігає лише за переможцем, природно виникають у багатьох програмах, включаючи системи рейтингу та рекомендацій, однак фундаментальне питання залишається відкритим: чи може один алгоритм працювати оптимально як у стохастичних, так і в змагальних середовищах, не знаючи, з яким режимом він стикається?

- Створення екземпляра нашого скорочення за допомогою \texttt{Versatile-DB} дає перший найкращий з обох світів алгоритм для бандитів, що б'ються в кількох дуелях: він досягає O(\sqrt{KT}) псевдо-жалю проти суперницьких уподобань та оптимального для екземпляра O\!\left(\sum_{i \neq a^\star} \frac{\log T}{Δ_i}\right) псевдо-жаль за стохастичними перевагами, як одночасно, так і без попереднього знання режиму.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive