Video Question Answering: Datasets, Algorithms and Challenges

Video Question Answering: Datasets, Algorithms and Challenges

2 March 2022

Wei Ji

Papers citing "Video Question Answering: Datasets, Algorithms and Challenges"

18 / 18 papers shown

Title
DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering Han Wang Kai Hu Liangcai Gao 176 0 0 20 Mar 2025
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin Yiming Li Li Yuan Shuicheng Yan Jie Chen 54 1 0 31 Dec 2024
Neptune: The Long Orbit to Benchmarking Long Video Understanding Arsha Nagrani Ruotong Wang Ramin Mehran Rachel Hornung N. B. Gundavarapu ... Boqing Gong Cordelia Schmid Mikhail Sirotenko Yukun Zhu Tobias Weyand 103 4 0 12 Dec 2024
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation Quanting Xie So Yeon Min Tianyi Zhang Kedi Xu Aarav Bajaj Ruslan Salakhutdinov Matthew Johnson-Roberson Yonatan Bisk Matthew Johnson-Roberson Yonatan Bisk LM&Ro 55 7 0 26 Sep 2024
QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems Zhixian He Pengcheng Zhao Fuwei Zhang Shujin Lin 41 0 0 14 Sep 2024
Question-Answering Dense Video Events Hangyu Qin Junbin Xiao Angela Yao VLM 77 1 0 06 Sep 2024
VideoQA-SC: Adaptive Semantic Communication for Video Question Answering Jiangyuan Guo Wei Chen Yuxuan Sun Jia-lin Xu Bo Ai 62 4 0 17 May 2024
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering Juhong Min Shyamal Buch Arsha Nagrani Minsu Cho Cordelia Schmid LRM 44 20 0 09 Apr 2024
CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes Paritosh Parmar Eric Peh Ruirui Chen Ting En Lam Yuhan Chen Elston Tan Basura Fernando CML 40 7 0 01 Apr 2024
YTCommentQA: Video Question Answerability in Instructional Videos Saelyne Yang Sunghyun Park Yunseok Jang Moontae Lee 31 3 0 30 Jan 2024
Discovering Spatio-Temporal Rationales for Video Question Answering Yicong Li Junbin Xiao Chun Feng Xiang Wang Tat-Seng Chua 25 13 0 22 Jul 2023
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion Isha Rawal Alexander Matyasko Shantanu Jaiswal Basura Fernando Cheston Tan 21 2 0 15 Jun 2023
Connecting Vision and Language with Video Localized Narratives P. Voigtlaender Soravit Changpinyo Jordi Pont-Tuset Radu Soricut V. Ferrari VGen 49 21 0 22 Feb 2023
MRTNet: Multi-Resolution Temporal Network for Video Sentence Grounding Wei Ji Long Chen Yin-wei Wei Yiming Wu Tat-Seng Chua AI4TS 35 18 0 26 Dec 2022
WildQA: In-the-Wild Video Question Answering Santiago Castro Naihao Deng Pingxuan Huang Mihai Burzo Rada Mihalcea 74 7 0 14 Sep 2022
Equivariant and Invariant Grounding for Video Question Answering Yicong Li Xiang Wang Junbin Xiao Tat-Seng Chua 23 25 0 26 Jul 2022
Video Graph Transformer for Video Question Answering Junbin Xiao Pan Zhou Tat-Seng Chua Shuicheng Yan ViT 159 75 0 12 Jul 2022
Bridge to Answer: Structure-aware Graph Interaction Network for Video Question Answering Jungin Park Jiyoung Lee Kwanghoon Sohn 165 100 0 29 Apr 2021