Video Prediction Recalling Long-term Motion Context via Memory Alignment Learning

2 April 2021

Papers citing "Video Prediction Recalling Long-term Motion Context via Memory Alignment Learning"

50 / 56 papers shown

Title
REEF: Relevance-Aware and Efficient LLM Adapter for Video Understanding Sakib Reza Xiyun Song Heather Yu Zongfang Lin Mohsen Moghaddam Octavia Camps 23 0 0 07 Apr 2025
Enhancing Human Motion Prediction via Multi-range Decoupling Decoding with Gating-adjusting Aggregation Jiexin Wang Wenwen Qiang Zhao-Qing Yang Bing-Huang Su 39 0 0 30 Mar 2025
UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines Chen Tang Xinzhu Ma Encheng Su Xiufeng Song Xiaohong Liu Wei-Hong Li Lei Bai Wanli Ouyang Xiangyu Yue 3DGS AI4TS 72 0 0 26 Mar 2025
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment Xiaowei Bi Zheyuan Xu 53 1 0 12 Mar 2025
Online Dense Point Tracking with Streaming Memory Qiaole Dong Yanwei Fu 41 0 0 09 Mar 2025
MAUCell: An Adaptive Multi-Attention Framework for Video Frame Prediction Shreyam Gupta P. Agrawal Priyam Gupta 69 0 0 28 Jan 2025
Spatio-Temporal Multi-Subgraph GCN for 3D Human Motion Prediction Jiexin Wang Yiju Guo Bing-Huang Su 3DH 45 0 0 03 Jan 2025
$$\texttt{DINO-Foresight}$: Looking into the Future with DINO$ $\texttt{DINO-Foresight}$ : Looking into the Future with DINO Efstathios Karypidis Ioannis Kakogeorgiou Spyros Gidaris N. Komodakis AI4CE 82 1 0 16 Dec 2024
Video Anomaly Detection with Motion and Appearance Guided Patch Diffusion Model Hang Zhou Jiale Cai Yuteng Ye Yonghui Feng Chenxing Gao Junqing Yu Zikai Song Wei Yang DiffM VGen 72 1 0 12 Dec 2024
Towards Social AI: A Survey on Understanding Social Interactions Sangmin Lee Minzhi Li Bolin Lai Wenqi Jia Fiona Ryan ... Ozgur Kara Bikram Boote Weiyan Shi Diyi Yang James M. Rehg 39 4 0 05 Sep 2024
RNNs, CNNs and Transformers in Human Action Recognition: A Survey and a Hybrid Model Khaled Alomar Halil Ibrahim Aysel Xiaohao Cai MedIm ViT 37 7 0 02 Jun 2024
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding Bo He Hengduo Li Young Kyun Jang Menglin Jia Xuefei Cao Ashish Shah Abhinav Shrivastava Ser-Nam Lim MLLM 81 88 0 08 Apr 2024
MemFlow: Optical Flow Estimation and Prediction with Memory Qiaole Dong Yanwei Fu 23 19 0 07 Apr 2024
VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate Spatiotemporal Forecasting Yujin Tang Peijie Dong Zhenheng Tang Xiaowen Chu Junwei Liang Mamba 62 20 0 25 Mar 2024
A Simple LLM Framework for Long-Range Video Question-Answering Ce Zhang Taixi Lu Md. Mohaiminul Islam Ziyang Wang Shoubin Yu Mohit Bansal Gedas Bertasius 100 80 0 28 Dec 2023
A Survey on Multimodal Large Language Models for Autonomous Driving Can Cui Yunsheng Ma Xu Cao Wenqian Ye Yang Zhou ... Xinrui Yan Shuqi Mei Jianguo Cao Ziran Wang Chao Zheng 41 249 0 21 Nov 2023
Pair-wise Layer Attention with Spatial Masking for Video Prediction Ping Li Chenhan Zhang Zheng Yang Xianghua Xu Mingli Song 21 0 0 19 Nov 2023
TransNet: A Transfer Learning-Based Network for Human Action Recognition Khaled Alomar Xiaohao Cai 27 1 0 13 Sep 2023
SwinLSTM:Improving Spatiotemporal Prediction Accuracy using Swin Transformer and LSTM Song Tang Chuang Li Pufen Zhang R. Tang AI4TS 28 47 0 19 Aug 2023
AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained Model Jeong Hun Yeo Minsu Kim J. Choi Dae Hoe Kim Y. Ro 24 18 0 15 Aug 2023
Vehicle Motion Forecasting using Prior Information and Semantic-assisted Occupancy Grid Maps Rabbia Asghar M. Diaz-Zapata Lukas Rummelhard A. Spalanzani Christian Laugier 19 5 0 08 Aug 2023
Spatio-Temporal Branching for Motion Prediction using Motion Increments Jiexin Wang Yujie Zhou Wenwen Qiang Ying Ba Bing-Huang Su Ji-Rong Wen 3DH 21 10 0 02 Aug 2023
S-HR-VQVAE: Sequential Hierarchical Residual Learning Vector Quantized Variational Autoencoder for Video Prediction Mohammad Adiban Kalin Stefanov Sabato Marco Siniscalchi G. Salvi 26 2 0 13 Jul 2023
Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for Robust Audio-Visual Speech Recognition Yuchen Hu Ruizhe Li Cheng Chen Chengwei Qin Qiu-shi Zhu E. Chng 29 5 0 18 Jun 2023
Fast Fourier Inception Networks for Occluded Video Prediction Ping Li Chenhan Zhang Xianghua Xu 28 6 0 17 Jun 2023
MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video Prediction Domain Zhifeng Ma Hao Zhang Jie Liu 21 7 0 16 Apr 2023
Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers Jaehoon Yoo Semin Kim Doyup Lee Chiheon Kim Seunghoon Hong 31 3 0 20 Mar 2023
InstMove: Instance Motion for Object-centric Video Segmentation Qihao Liu Junfeng Wu Yi-Xin Jiang Xiang Bai Alan Yuille S. Bai OCL VOS 28 6 0 14 Mar 2023
Anti-aliasing Predictive Coding Network for Future Video Frame Prediction Chaofan Ling Wei-Hong Li Junpei Zhong 26 0 0 13 Jan 2023
Allo-centric Occupancy Grid Prediction for Urban Traffic Scene Using Video Prediction Networks Rabbia Asghar Lukas Rummelhard A. Spalanzani Christian Laugier 19 2 0 11 Jan 2023
Long-horizon video prediction using a dynamic latent hierarchy Alexey Zakharov Qinghai Guo Z. Fountas 21 4 0 29 Dec 2022
Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for Video Prediction Chaofan Ling Junpei Zhong Wei-Hong Li 31 3 0 22 Dec 2022
DaDe: Delay-adaptive Detector for Streaming Perception Wonwoo Jo Kyung-Min Lee J. Baik Sangsun Lee Dongho Choi Hyunkyoo Park 28 2 0 22 Dec 2022
Video Prediction by Efficient Transformers Xi Ye Guillaume-Alexandre Bilodeau ViT 34 33 0 12 Dec 2022
Motion and Context-Aware Audio-Visual Conditioned Video Prediction Yating Xu Conghui Hu G. Lee VGen 40 0 0 09 Dec 2022
MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video Prediction Shuliang Ning Mengcheng Lan Yanran Li Chaofeng Chen Qian Chen Xunlai Chen Xiaoguang Han Shuguang Cui 28 20 0 09 Dec 2022
LGN-Net: Local-Global Normality Network for Video Anomaly Detection Mengyang Zhao Xinhua Zeng Y. Liu Jing Liu Di Li Xinhua Zeng Chengxin Pang 23 11 0 14 Nov 2022
Advancing Learned Video Compression with In-loop Frame Prediction Ren Yang Radu Timofte Luc Van Gool 19 26 0 13 Nov 2022
SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip Memory Se Jin Park Minsu Kim Joanna Hong J. Choi Y. Ro CVBM 19 85 0 02 Nov 2022
A unified model for continuous conditional video prediction Xi Ye Guillaume-Alexandre Bilodeau AI4TS 37 7 0 11 Oct 2022
In-Place Gestures Classification via Long-term Memory Augmented Network Lizhi Zhao Xuequan Lu Qianyue Bao Meili Wang 16 4 0 02 Sep 2022
Pyramidal Predictive Network: A Model for Visual-frame Prediction Based on Predictive Coding Theory Chaofan Ling Junpei Zhong Wei-Hong Li 22 4 0 15 Aug 2022
Neighbor Correspondence Matching for Flow-based Video Frame Synthesis Zhaoyang Jia Yan-Heng Lu Houqiang Li 20 13 0 14 Jul 2022
Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive Learning Cheng Tan Zhangyang Gao Lirong Wu Yongjie Xu Jun-Xiong Xia Siyuan Li Stan Z. Li 34 107 0 24 Jun 2022
STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction Zheng Chang Xinfeng Zhang Shanshe Wang Siwei Ma Wen Gao 31 4 0 09 Jun 2022
MS-RNN: A Flexible Multi-Scale Framework for Spatiotemporal Predictive Learning Zhifeng Ma Hao Zhang Jie Liu HAI AI4CE 25 12 0 07 Jun 2022
STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond Zheng Chang Xinfeng Zhang Shanshe Wang Siwei Ma Wen Gao 30 1 0 20 Apr 2022
Joint Hand Motion and Interaction Hotspots Prediction from Egocentric Videos Shao-Wei Liu Subarna Tripathi Somdeb Majumdar Xiaolong Wang EgoV 26 93 0 04 Apr 2022
Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading Minsu Kim Jeong Hun Yeo Yong Man Ro 13 61 0 04 Apr 2022
Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face Video Minsu Kim Joanna Hong Se Jin Park Yong Man Ro CVBM 23 40 0 04 Apr 2022