arXiv

Стратегії на основі навчальних програм для ефективного розпізнавання міждоменних дій

Незважаючи на значний прогрес у розпізнаванні людських дій, узагальнення до різних точок зору залишається проблемою. Більшість існуючих наборів даних фіксуються з точки зору наземного рівня, і моделі, навчені на них, часто важко перенести в різко різні області, такі як вид з повітря. У цій статті досліджується, як стратегії навчання на основі навчальних програм можуть покращити узагальнення до невидимих реальних даних повітряного огляду без використання реальних повітряних даних під час навчання. Ми досліджуємо навчальні програми для розпізнавання дій із перехресним переглядом, використовуючи два поза доменом джерела: синтетичні дані повітряного огляду та реальні дані наземного огляду. Наші результати оцінки порядку навчання (точна настройка синтетичних повітряних даних проти реальних наземних даних) показують, що точна настройка на реальних наземних даних відрізняється тим, як вони переходять від синтетичних до реальних. Перший використовує двоетапну навчальну програму з прямим тонким налаштуванням, тоді як другий застосовує прогресивну навчальну програму, яка розширює набір даних на кілька етапів перед тонким налаштуванням. Ми оцінюємо обидва методи на наборі даних REMAG за допомогою архітектур SlowFast (на основі CNN) та MVITv2 (на основі трансформерів). Результати показують, що поєднання двох наборів даних поза доменом явно перевершує навчання в одному домені, будь то реальний вид на землю чи синтетичний вид з повітря. Обидві стратегії навчальних програм відповідають точності топ-1 простої комбінації наборів даних, пропонуючи підвищення ефективності. За допомогою двоетапного методу тонкої настройки SlowFast досягає до 37% зменшення ітерацій, а MVITv2 - до 30% порівняно з простою комбінацією. Багатоетапний прогресивний підхід додатково зменшує кількість ітерацій, до 9% для SlowFast та 30% для MVITv2, порівняно з двоетапним методом. Ці висновки демонструють, що навчання на основі навчальних програм може підтримувати порівнянну ефективність (точність топ-1 в межах 3%), одночасно підвищуючи ефективність навчання у розпізнаванні дій з перехресного огляду.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Jan 20, 2026
Read time
1 min read
Primary lane
Computer Vision

Quick read

1 bullets
  • Незважаючи на значний прогрес у розпізнаванні людських дій, узагальнення до різних точок зору залишається проблемою. Більшість існуючих наборів даних фіксуються з точки зору наземного рівня, і моделі, навчені на них, часто важко перенести в різко різні області, такі як вид з повітря. У цій статті досліджується, як стратегії навчання на основі навчальних програм можуть покращити узагальнення до невидимих реальних даних повітряного огляду без використання реальних повітряних даних під час навчання. Ми досліджуємо навчальні програми для розпізнавання дій із перехресним переглядом, використовуючи два поза доменом джерела: синтетичні дані повітряного огляду та реальні дані наземного огляду. Наші результати оцінки порядку навчання (точна настройка синтетичних повітряних даних проти реальних наземних даних) показують, що точна настройка на реальних наземних даних відрізняється тим, як вони переходять від синтетичних до реальних. Перший використовує двоетапну навчальну програму з прямим тонким налаштуванням, тоді як другий застосовує прогресивну навчальну програму, яка розширює набір даних на кілька етапів перед тонким налаштуванням. Ми оцінюємо обидва методи на наборі даних REMAG за допомогою архітектур SlowFast (на основі CNN) та MVITv2 (на основі трансформерів). Результати показують, що поєднання двох наборів даних поза доменом явно перевершує навчання в одному домені, будь то реальний вид на землю чи синтетичний вид з повітря. Обидві стратегії навчальних програм відповідають точності топ-1 простої комбінації наборів даних, пропонуючи підвищення ефективності. За допомогою двоетапного методу тонкої настройки SlowFast досягає до 37% зменшення ітерацій, а MVITv2 - до 30% порівняно з простою комбінацією. Багатоетапний прогресивний підхід додатково зменшує кількість ітерацій, до 9% для SlowFast та 30% для MVITv2, порівняно з двоетапним методом. Ці висновки демонструють, що навчання на основі навчальних програм може підтримувати порівнянну ефективність (точність топ-1 в межах 3%), одночасно підвищуючи ефективність навчання у розпізнаванні дій з перехресного огляду.

Чому це важливо

Незважаючи на значний прогрес у розпізнаванні людських дій, узагальнення до різних точок зору залишається проблемою. Більшість існуючих наборів даних фіксуються з точки зору наземного рівня, і моделі, навчені на них, часто важко перенести в різко різні області, такі як вид з повітря. У цій статті досліджується, як стратегії навчання на основі навчальних програм можуть покращити узагальнення до невидимих реальних даних повітряного огляду без використання реальних повітряних даних під час навчання. Ми досліджуємо навчальні програми для розпізнавання дій із перехресним переглядом, використовуючи два поза доменом джерела: синтетичні дані повітряного огляду та реальні дані наземного огляду. Наші результати оцінки порядку навчання (точна настройка синтетичних повітряних даних проти реальних наземних даних) показують, що точна настройка на реальних наземних даних відрізняється тим, як вони переходять від синтетичних до реальних. Перший використовує двоетапну навчальну програму з прямим тонким налаштуванням, тоді як другий застосовує прогресивну навчальну програму, яка розширює набір даних на кілька етапів перед тонким налаштуванням. Ми оцінюємо обидва методи на наборі даних REMAG за допомогою архітектур SlowFast (на основі CNN) та MVITv2 (на основі трансформерів). Результати показують, що поєднання двох наборів даних поза доменом явно перевершує навчання в одному домені, будь то реальний вид на землю чи синтетичний вид з повітря. Обидві стратегії навчальних програм відповідають точності топ-1 простої комбінації наборів даних, пропонуючи підвищення ефективності. За допомогою двоетапного методу тонкої настройки SlowFast досягає до 37% зменшення ітерацій, а MVITv2 - до 30% порівняно з простою комбінацією. Багатоетапний прогресивний підхід додатково зменшує кількість ітерацій, до 9% для SlowFast та 30% для MVITv2, порівняно з двоетапним методом. Ці висновки демонструють, що навчання на основі навчальних програм може підтримувати порівнянну ефективність (точність топ-1 в межах 3%), одночасно підвищуючи ефективність навчання у розпізнаванні дій з перехресного огляду.

Builder takeaway

arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Незважаючи на значний прогрес у розпізнаванні людських дій, узагальнення до різних точок зору залишається проблемою. Більшість існуючих наборів даних фіксуються з точки зору наземного рівня, і моделі, навчені на них, часто важко перенести в різко різні області, такі як вид з повітря. У цій статті досліджується, як стратегії навчання на основі навчальних програм можуть покращити узагальнення до невидимих реальних даних повітряного огляду без використання реальних повітряних даних під час навчання. Ми досліджуємо навчальні програми для розпізнавання дій із перехресним переглядом, використовуючи два поза доменом джерела: синтетичні дані повітряного огляду та реальні дані наземного огляду. Наші результати оцінки порядку навчання (точна настройка синтетичних повітряних даних проти реальних наземних даних) показують, що точна настройка на реальних наземних даних відрізняється тим, як вони переходять від синтетичних до реальних. Перший використовує двоетапну навчальну програму з прямим тонким налаштуванням, тоді як другий застосовує прогресивну навчальну програму, яка розширює набір даних на кілька етапів перед тонким налаштуванням. Ми оцінюємо обидва методи на наборі даних REMAG за допомогою архітектур SlowFast (на основі CNN) та MVITv2 (на основі трансформерів). Результати показують, що поєднання двох наборів даних поза доменом явно перевершує навчання в одному домені, будь то реальний вид на землю чи синтетичний вид з повітря. Обидві стратегії навчальних програм відповідають точності топ-1 простої комбінації наборів даних, пропонуючи підвищення ефективності. За допомогою двоетапного методу тонкої настройки SlowFast досягає до 37% зменшення ітерацій, а MVITv2 - до 30% порівняно з простою комбінацією. Багатоетапний прогресивний підхід додатково зменшує кількість ітерацій, до 9% для SlowFast та 30% для MVITv2, порівняно з двоетапним методом. Ці висновки демонструють, що навчання на основі навчальних програм може підтримувати порівнянну ефективність (точність топ-1 в межах 3%), одночасно підвищуючи ефективність навчання у розпізнаванні дій з перехресного огляду.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.