Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA

13 May 2020

Papers citing "Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA"

7 / 7 papers shown

Title
End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling Jianxin Liang Xiaojun Meng Yueqian Wang Chang Liu Qun Liu Dongyan Zhao 34 5 0 21 Jul 2024
VideoDistill: Language-aware Vision Distillation for Video Question Answering Bo Zou Chao Yang Yu Qiao Chengbin Quan Youjian Zhao VGen 50 1 0 01 Apr 2024
Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering Jiong Wang Zhou Zhao Weike Jin 18 0 0 08 Sep 2022
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid 36 228 0 16 Jun 2022
Learning to Answer Visual Questions from Web Videos Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 34 33 0 10 May 2022
Summarize-then-Answer: Generating Concise Explanations for Multi-hop Reading Comprehension Naoya Inoue H. Trivedi Steven K. Sinha Niranjan Balasubramanian Kentaro Inui 58 14 0 14 Sep 2021
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 167 1,464 0 06 Jun 2016