Групове інваріантне виявлення навичок без нагляду: уявлення навичок, що усвідомлюють симетрію, для узагальненої поведінки

Quick read

1 bullets

Відкриття навичок без нагляду має на меті придбати примітиви поведінки, які покращують дослідження та прискорюють вивчення завдань нижче за течією. Однак існуючі підходи часто ігнорують геометричні симетрії фізичних середовищ, що призводить до зайвої поведінки та неефективності вибірки. Щоб вирішити це, ми представляємо Group-Invariant Skill Discovery (GISD), фреймворк, який явно вбудовує групову структуру в мету виявлення навичок. Наш підхід ґрунтується на теоретичній гарантії: ми доводимо, що в групово-симетричних середовищах стандартна міра залежності Вассерштейна допускає глобально оптимальне рішення, що складається з еквівалентної політики та групово-інваріантної функції оцінки. Мотивуючи це, ми формулюємо групово-інваріантну міру залежності Вассерштейна, яка обмежує оптимізацію цим підпростором, що усвідомлює симетрію, без втрати оптимальності. Практично ми параметризуємо функцію оцінки за допомогою групового представлення Фур'є та визначаємо внутрішню винагороду за допомогою вирівнювання еквівалентних прихованих ознак, гарантуючи, що виявлені навички систематично узагальнюються під груповими трансформаціями. Експерименти з еталонами руху на основі стану та пікселів демонструють, що GISD досягає більш широкого охоплення простору стану та покращує ефективність у навчанні завдань нижче за течією порівняно з сильною базовою лінією.

Чому це важливо

✦

Відкриття навичок без нагляду має на меті придбати примітиви поведінки, які покращують дослідження та прискорюють вивчення завдань нижче за течією. Однак існуючі підходи часто ігнорують геометричні симетрії фізичних середовищ, що призводить до зайвої поведінки та неефективності вибірки. Щоб вирішити це, ми представляємо Group-Invariant Skill Discovery (GISD), фреймворк, який явно вбудовує групову структуру в мету виявлення навичок. Наш підхід ґрунтується на теоретичній гарантії: ми доводимо, що в групово-симетричних середовищах стандартна міра залежності Вассерштейна допускає глобально оптимальне рішення, що складається з еквівалентної політики та групово-інваріантної функції оцінки. Мотивуючи це, ми формулюємо групово-інваріантну міру залежності Вассерштейна, яка обмежує оптимізацію цим підпростором, що усвідомлює симетрію, без втрати оптимальності. Практично ми параметризуємо функцію оцінки за допомогою групового представлення Фур'є та визначаємо внутрішню винагороду за допомогою вирівнювання еквівалентних прихованих ознак, гарантуючи, що виявлені навички систематично узагальнюються під груповими трансформаціями. Експерименти з еталонами руху на основі стану та пікселів демонструють, що GISD досягає більш широкого охоплення простору стану та покращує ефективність у навчанні завдань нижче за течією порівняно з сильною базовою лінією.

Builder takeaway

arXiv published this update in the Robotics lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Відкриття навичок без нагляду має на меті придбати примітиви поведінки, які покращують дослідження та прискорюють вивчення завдань нижче за течією. Однак існуючі підходи часто ігнорують геометричні симетрії фізичних середовищ, що призводить до зайвої поведінки та неефективності вибірки. Щоб вирішити це, ми представляємо Group-Invariant Skill Discovery (GISD), фреймворк, який явно вбудовує групову структуру в мету виявлення навичок. Наш підхід ґрунтується на теоретичній гарантії: ми доводимо, що в групово-симетричних середовищах стандартна міра залежності Вассерштейна допускає глобально оптимальне рішення, що складається з еквівалентної політики та групово-інваріантної функції оцінки. Мотивуючи це, ми формулюємо групово-інваріантну міру залежності Вассерштейна, яка обмежує оптимізацію цим підпростором, що усвідомлює симетрію, без втрати оптимальності. Практично ми параметризуємо функцію оцінки за допомогою групового представлення Фур'є та визначаємо внутрішню винагороду за допомогою вирівнювання еквівалентних прихованих ознак, гарантуючи, що виявлені навички систематично узагальнюються під груповими трансформаціями. Експерименти з еталонами руху на основі стану та пікселів демонструють, що GISD досягає більш широкого охоплення простору стану та покращує ефективність у навчанні завдань нижче за течією порівняно з сильною базовою лінією.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.

Subscribe via RSS Browse archive