Двопотоковий часовий трансформатор для класифікації відеодій
Представлення руху відіграє важливу роль у розумінні відео та має багато застосувань, включаючи розпізнавання дій, робота та автономне керівництво чи інші. Останнім часом трансформаторні мережі завдяки своїм можливостям механізму самоуваги довели свою ефективність у багатьох сферах застосування. У цьому дослідженні ми представляємо новий двопотоковий трансформаторний відеокласифікатор, який витягує просторово-часову інформацію із вмісту та оптичного потоку, що представляє інформацію про рух. Запропонована модель визначає особливості самоуваги в області спільного оптичного потоку та часового кадру та представляє їх взаємозв'язки всередині механізму кодера трансформатора. Результати експерименту показують, що запропонована нами методологія забезпечує чудові результати класифікації трьох відомих наборів відео даних про діяльність людини.
At a glance
- Source
- arXiv
- Published
- Jan 20, 2026
- Read time
- 1 min read
- Primary lane
- Computer Vision
Quick read
1 bullets- Представлення руху відіграє важливу роль у розумінні відео та має багато застосувань, включаючи розпізнавання дій, робота та автономне керівництво чи інші. Останнім часом трансформаторні мережі завдяки своїм можливостям механізму самоуваги довели свою ефективність у багатьох сферах застосування. У цьому дослідженні ми представляємо новий двопотоковий трансформаторний відеокласифікатор, який витягує просторово-часову інформацію із вмісту та оптичного потоку, що представляє інформацію про рух. Запропонована модель визначає особливості самоуваги в області спільного оптичного потоку та часового кадру та представляє їх взаємозв'язки всередині механізму кодера трансформатора. Результати експерименту показують, що запропонована нами методологія забезпечує чудові результати класифікації трьох відомих наборів відео даних про діяльність людини.
Чому це важливо
Представлення руху відіграє важливу роль у розумінні відео та має багато застосувань, включаючи розпізнавання дій, робота та автономне керівництво чи інші. Останнім часом трансформаторні мережі завдяки своїм можливостям механізму самоуваги довели свою ефективність у багатьох сферах застосування. У цьому дослідженні ми представляємо новий двопотоковий трансформаторний відеокласифікатор, який витягує просторово-часову інформацію із вмісту та оптичного потоку, що представляє інформацію про рух. Запропонована модель визначає особливості самоуваги в області спільного оптичного потоку та часового кадру та представляє їх взаємозв'язки всередині механізму кодера трансформатора. Результати експерименту показують, що запропонована нами методологія забезпечує чудові результати класифікації трьох відомих наборів відео даних про діяльність людини.
Builder takeaway
arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.
Представлення руху відіграє важливу роль у розумінні відео та має багато застосувань, включаючи розпізнавання дій, робота та автономне керівництво чи інші. Останнім часом трансформаторні мережі завдяки своїм можливостям механізму самоуваги довели свою ефективність у багатьох сферах застосування. У цьому дослідженні ми представляємо новий двопотоковий трансформаторний відеокласифікатор, який витягує просторово-часову інформацію із вмісту та оптичного потоку, що представляє інформацію про рух. Запропонована модель визначає особливості самоуваги в області спільного оптичного потоку та часового кадру та представляє їх взаємозв'язки всередині механізму кодера трансформатора. Результати експерименту показують, що запропонована нами методологія забезпечує чудові результати класифікації трьох відомих наборів відео даних про діяльність людини.
Stay ahead with daily AI briefings
Follow the feed, share the briefing, or jump back into the archive.