arXiv

Двопотоковий часовий трансформатор для класифікації відеодій

Представлення руху відіграє важливу роль у розумінні відео та має багато застосувань, включаючи розпізнавання дій, робота та автономне керівництво чи інші. Останнім часом трансформаторні мережі завдяки своїм можливостям механізму самоуваги довели свою ефективність у багатьох сферах застосування. У цьому дослідженні ми представляємо новий двопотоковий трансформаторний відеокласифікатор, який витягує просторово-часову інформацію із вмісту та оптичного потоку, що представляє інформацію про рух. Запропонована модель визначає особливості самоуваги в області спільного оптичного потоку та часового кадру та представляє їх взаємозв'язки всередині механізму кодера трансформатора. Результати експерименту показують, що запропонована нами методологія забезпечує чудові результати класифікації трьох відомих наборів відео даних про діяльність людини.

arXiv||1 min read
Open original

At a glance

Source
arXiv
Published
Jan 20, 2026
Read time
1 min read
Primary lane
Computer Vision

Quick read

1 bullets
  • Представлення руху відіграє важливу роль у розумінні відео та має багато застосувань, включаючи розпізнавання дій, робота та автономне керівництво чи інші. Останнім часом трансформаторні мережі завдяки своїм можливостям механізму самоуваги довели свою ефективність у багатьох сферах застосування. У цьому дослідженні ми представляємо новий двопотоковий трансформаторний відеокласифікатор, який витягує просторово-часову інформацію із вмісту та оптичного потоку, що представляє інформацію про рух. Запропонована модель визначає особливості самоуваги в області спільного оптичного потоку та часового кадру та представляє їх взаємозв'язки всередині механізму кодера трансформатора. Результати експерименту показують, що запропонована нами методологія забезпечує чудові результати класифікації трьох відомих наборів відео даних про діяльність людини.

Чому це важливо

Представлення руху відіграє важливу роль у розумінні відео та має багато застосувань, включаючи розпізнавання дій, робота та автономне керівництво чи інші. Останнім часом трансформаторні мережі завдяки своїм можливостям механізму самоуваги довели свою ефективність у багатьох сферах застосування. У цьому дослідженні ми представляємо новий двопотоковий трансформаторний відеокласифікатор, який витягує просторово-часову інформацію із вмісту та оптичного потоку, що представляє інформацію про рух. Запропонована модель визначає особливості самоуваги в області спільного оптичного потоку та часового кадру та представляє їх взаємозв'язки всередині механізму кодера трансформатора. Результати експерименту показують, що запропонована нами методологія забезпечує чудові результати класифікації трьох відомих наборів відео даних про діяльність людини.

Builder takeaway

arXiv published this update in the Computer Vision lane. Use the original source for details, then compare it with related briefings before changing a roadmap, workflow, or production system.

Представлення руху відіграє важливу роль у розумінні відео та має багато застосувань, включаючи розпізнавання дій, робота та автономне керівництво чи інші. Останнім часом трансформаторні мережі завдяки своїм можливостям механізму самоуваги довели свою ефективність у багатьох сферах застосування. У цьому дослідженні ми представляємо новий двопотоковий трансформаторний відеокласифікатор, який витягує просторово-часову інформацію із вмісту та оптичного потоку, що представляє інформацію про рух. Запропонована модель визначає особливості самоуваги в області спільного оптичного потоку та часового кадру та представляє їх взаємозв'язки всередині механізму кодера трансформатора. Результати експерименту показують, що запропонована нами методологія забезпечує чудові результати класифікації трьох відомих наборів відео даних про діяльність людини.

Stay ahead with daily AI briefings

Follow the feed, share the briefing, or jump back into the archive.