Topic archive

Video AI news

Video generation, temporal reasoning, and media workflows. This page collects the latest briefings that match the topic so readers can follow one area without scanning the full feed.

Indexed briefings

151

Latest source-linked updates, ordered newest first.

Latest

Recent briefings

arXiv|Jul 1, 2026|1 min read

SpheRoPE: Zero-Shot Optimization-Free 360 Panorama Generation with Spherical RoPE

Focuses on SpheRoPE: Zero-Shot Optimization-Free 360 Panorama Generation with Spherical RoPE.

Computer Vision 3d Vision Healthcare

arXiv|Jul 1, 2026|1 min read

MG-RWKV: Multi-Grained Context-Aware RWKV for Temporal Forgery Localization

Focuses on MG-RWKV: Multi-Grained Context-Aware RWKV for Temporal Forgery Localization.

Computer Vision Healthcare Speech

arXiv|Jun 30, 2026|1 min read

MuSViT: A Foundation Vision Model for Sheet Music Representation

Focuses on MuSViT: A Foundation Vision Model for Sheet Music Representation.

Computer Vision Healthcare Music Ai

arXiv|Jun 30, 2026|1 min read

ABot-M0.5: Unified Mobility-and-Manipulation World Action Model

Focuses on ABot-M0.5: Unified Mobility-and-Manipulation World Action Model.

Computer Vision Robotics Healthcare

arXiv|Jun 28, 2026|1 min read

From Black-Box to Clinical Insight: A Multi-Stage Explainable Framework for Speech-Based Cognitive Impairment Detection

Focuses on From Black-Box to Clinical Insight: A Multi-Stage Explainable Framework for Speech-Based Cognitive Impairment Detection.

NLP AI Healthcare

arXiv|Jun 27, 2026|1 min read

MindFlow: Harmonizing Cognitive Semantics and Acoustic Dynamics for Facial Animation Generation in Dyadic Conversations

Focuses on MindFlow: Harmonizing Cognitive Semantics and Acoustic Dynamics for Facial Animation Generation in Dyadic Conversations.

Computer Vision Healthcare Speech

arXiv|Jun 26, 2026|1 min read

DnA: Denoising Attention for Visual Tasks

Focuses on DnA: Denoising Attention for Visual Tasks.

Computer Vision Healthcare Biology

arXiv|Jun 26, 2026|1 min read

PhysiFormer: Learning to Simulate Mechanics in World Space

Focuses on PhysiFormer: Learning to Simulate Mechanics in World Space.

Computer Vision 3d Vision Healthcare

arXiv|Jun 26, 2026|1 min read

HybridCodec: Modeling Discrete and Continuous Representations for Efficient Speech Language Models

Focuses on HybridCodec: Modeling Discrete and Continuous Representations for Efficient Speech Language Models.

Machine Learning AI Healthcare

arXiv|Jun 26, 2026|1 min read

RayPE: Ray-Space Positional Encoding for 3D-Aware Video Generation

Focuses on RayPE: Ray-Space Positional Encoding for 3D-Aware Video Generation.

Computer Vision 3d Vision Scene Understanding

arXiv|Jun 26, 2026|1 min read

See & Sniff: Learning Visuo-Olfactory Representations

Focuses on See & Sniff: Learning Visuo-Olfactory Representations.

Computer Vision Healthcare Speech

arXiv|Jun 26, 2026|1 min read

EO-WM: A Physically Informed World Model for Probabilistic Earth Observation Forecasting

Focuses on EO-WM: A Physically Informed World Model for Probabilistic Earth Observation Forecasting.

AI Computer Vision Healthcare

arXiv|Jun 25, 2026|1 min read

Dziri Voicebot: An End-to-End Low-Resource Speech-to-Speech Conversational System for Algerian Dialect

Focuses on Dziri Voicebot: An End-to-End Low-Resource Speech-to-Speech Conversational System for Algerian Dialect.

NLP Healthcare Transformers

arXiv|Jun 25, 2026|1 min read

VPA-Guard: Defending and Benchmarking Image-to-Video Generation Against Visual Prompt Attacks

Focuses on VPA-Guard: Defending and Benchmarking Image-to-Video Generation Against Visual Prompt Attacks.

Computer Vision Healthcare Video

arXiv|Jun 24, 2026|1 min read

Causal-rCM: A Unified Teacher-Forcing and Self-Forcing Open Recipe for Autoregressive Diffusion Distillation in Streaming Video Generation and Interactive World Models

Focuses on Causal-rCM: A Unified Teacher-Forcing and Self-Forcing Open Recipe for Autoregressive Diffusion Distillation in Streaming Video Generation and Interactive Worl...

Computer Vision Machine Learning Healthcare

arXiv|Jun 24, 2026|1 min read

L3Cube-MahaPOS: A Marathi Part-of-Speech Tagging Dataset and BERT Models

Focuses on L3Cube-MahaPOS: A Marathi Part-of-Speech Tagging Dataset and BERT Models.

NLP Machine Learning Healthcare

arXiv|Jun 24, 2026|1 min read

LearniBridge: Learnable Calibration of Feature Caching for Diffusion Models Acceleration

Focuses on LearniBridge: Learnable Calibration of Feature Caching for Diffusion Models Acceleration.

Computer Vision Machine Learning Healthcare

arXiv|Jun 24, 2026|1 min read

Scalable Operator Learning via Nyström Approximation With Denoising Applications

Focuses on Scalable Operator Learning via Nyström Approximation With Denoising Applications.

Statistics Healthcare Speech

arXiv|Jun 23, 2026|1 min read

PHAST-Net: Attention-Guided, Physics-Informed Network for Unified Estimation of Ideal Time-Frequency Representations

Focuses on PHAST-Net: Attention-Guided, Physics-Informed Network for Unified Estimation of Ideal Time-Frequency Representations.

Computer Vision Healthcare Music Ai

arXiv|Jun 23, 2026|1 min read

Vera: A Layered Diffusion Model for Content-Preserving Video Editing

Focuses on Vera: A Layered Diffusion Model for Content-Preserving Video Editing.

Computer Vision Scene Understanding Healthcare

arXiv|Jun 22, 2026|1 min read

TuringViT: Making SOTA Vision Transformers Accessible to All

Focuses on TuringViT: Making SOTA Vision Transformers Accessible to All.

Computer Vision Healthcare Video

arXiv|Jun 22, 2026|1 min read

Geometry-Instructed Video Editing

Focuses on Geometry-Instructed Video Editing.

Computer Vision 3d Vision Depth Estimation

arXiv|Jun 21, 2026|1 min read

Tri-Efficient Transfer Learning for Point Cloud Videos

Focuses on Tri-Efficient Transfer Learning for Point Cloud Videos.

Computer Vision Healthcare Video

arXiv|Jun 21, 2026|1 min read

Spectral Evolution-Guided Token Pruning in Multimodal Large Language Models

Focuses on Spectral Evolution-Guided Token Pruning in Multimodal Large Language Models.

Computer Vision Healthcare Video

arXiv|Jun 21, 2026|1 min read

SteerVTE: Seamless Video Text Editing with Style and Glyph Control

Focuses on SteerVTE: Seamless Video Text Editing with Style and Glyph Control.

Computer Vision AI Scene Understanding

arXiv|Jun 20, 2026|1 min read

LUMINA-26: Low-Light Understanding for Modeling and Interpreting Night-time Actions

Focuses on LUMINA-26: Low-Light Understanding for Modeling and Interpreting Night-time Actions.

Computer Vision Scene Understanding Healthcare

arXiv|Jun 20, 2026|1 min read

ScalingAttention: Discovering Intrinsic Sparse Attention Topology for Video Diffusion Transformers

Focuses on ScalingAttention: Discovering Intrinsic Sparse Attention Topology for Video Diffusion Transformers.

Computer Vision AI 3d Vision

arXiv|Jun 20, 2026|1 min read

DataMagic: Transforming Tabular Data into Data Insight Video

Focuses on DataMagic: Transforming Tabular Data into Data Insight Video.

AI Scene Understanding Healthcare

arXiv|Jun 19, 2026|1 min read

Gaussian Process Prior Variational Autoencoder for Endoscopic Videos

Focuses on Gaussian Process Prior Variational Autoencoder for Endoscopic Videos.

Computer Vision 3d Vision 3d Generation

arXiv|Jun 19, 2026|1 min read

A Comparative Study of Pretrained Transformer Models for Quranic ASR: Speech Representations, Label Formats, and Dataset Composition

Focuses on A Comparative Study of Pretrained Transformer Models for Quranic ASR: Speech Representations, Label Formats, and Dataset Composition.

AI Healthcare Speech

arXiv|Jun 18, 2026|1 min read

The Hidden Evolution of Disguised Visual Context inside the VLM

Focuses on The Hidden Evolution of Disguised Visual Context inside the VLM.

Computer Vision AI Healthcare

arXiv|Jun 18, 2026|1 min read

Triangular Consistency as a Universal Constraint for Learning Optical Flow

Focuses on Triangular Consistency as a Universal Constraint for Learning Optical Flow.

Computer Vision AI Healthcare

arXiv|Jun 18, 2026|1 min read

Gaussian Process Prior Variational Autoencoder for Endoscopic Videos

Focuses on Gaussian Process Prior Variational Autoencoder for Endoscopic Videos.

Computer Vision 3d Vision 3d Generation

arXiv|Jun 17, 2026|1 min read

High-Fidelity 4D Hand-Object Capture via Multi-View Spatiotemporal Tracking and Physics-Aware Gaussians

Focuses on High-Fidelity 4D Hand-Object Capture via Multi-View Spatiotemporal Tracking and Physics-Aware Gaussians.

Computer Vision 3d Generation Healthcare

arXiv|Jun 17, 2026|1 min read

Target-Side Paraphrase Augmentation for Sign Language Translation with Large Language Models

Focuses on Target-Side Paraphrase Augmentation for Sign Language Translation with Large Language Models.

NLP AI Healthcare

arXiv|Jun 17, 2026|1 min read

A Comparative Study of Pretrained Transformer Models for Quranic ASR: Speech Representations, Label Formats, and Dataset Composition

Focuses on A Comparative Study of Pretrained Transformer Models for Quranic ASR: Speech Representations, Label Formats, and Dataset Composition.

AI Healthcare Speech