From Representation to Reasoning: Towards both Evidence and Commonsense Reasoning for Video Question-Answering

30 May 2022

Papers citing "From Representation to Reasoning: Towards both Evidence and Commonsense Reasoning for Video Question-Answering"

24 / 24 papers shown

Title
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning Chi-Hsi Kung Frangil Ramirez Juhyung Ha Yi-Ting Chen David J. Crandall Yi-Hsuan Tsai 97 1 0 27 Mar 2025
Black Swan: Abductive and Defeasible Video Reasoning in Unpredictable Events Aditya Chinchure Sahithya Ravi R. Ng Vered Shwartz Boyang Albert Li Leonid Sigal ReLM LRM VLM 134 2 0 07 Dec 2024
SEAL: Semantic Attention Learning for Long Video Representation Lan Wang Yujia Chen Wen-Sheng Chu Vishnu Boddeti Du Tran VLM 156 0 0 02 Dec 2024
Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level Andong Deng Tongjia Chen Shoubin Yu Taojiannan Yang Lincoln Spencer Yapeng Tian Ajmal Mian Joey Tianyi Zhou Chen Chen LRM 86 2 0 15 Nov 2024
Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryoo Donghyun Kim Michael S. Ryoo 75 23 0 13 Jun 2024
Bridge to Answer: Structure-aware Graph Interaction Network for Video Question Answering Jungin Park Jiyoung Lee Kwanghoon Sohn 205 100 0 29 Apr 2021
On Modality Bias in the TVQA Dataset T. Winterbottom S. Xiao A. McLean Noura Al Moubayed 46 35 0 18 Dec 2020
Location-aware Graph Convolutional Networks for Video Question Answering Deng Huang Peihao Chen Runhao Zeng Qing Du Mingkui Tan Chuang Gan GNN BDL 83 175 0 07 Aug 2020
Visual Relation Grounding in Videos Junbin Xiao Xindi Shang Xun Yang Sheng Tang Tat-Seng Chua 38 40 0 17 Jul 2020
Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning Zhiyuan Fang Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang 37 61 0 11 Mar 2020
CLEVRER: CoLlision Events for Video REpresentation and Reasoning Kexin Yi Yuta Saito Yunzhu Li Pushmeet Kohli Jiajun Wu Antonio Torralba J. Tenenbaum NAI 104 469 0 03 Oct 2019
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations Zhenzhong Lan Mingda Chen Sebastian Goodman Kevin Gimpel Piyush Sharma Radu Soricut SSL AIMat 318 6,441 0 26 Sep 2019
ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering Zhou Yu D. Xu Jun-chen Yu Ting Yu Zhou Zhao Yueting Zhuang Dacheng Tao 101 458 0 06 Jun 2019
Video Instance Segmentation Linjie Yang Yuchen Fan N. Xu VOS ISeg 70 506 0 12 May 2019
SlowFast Networks for Video Recognition Christoph Feichtenhofer Haoqi Fan Jitendra Malik Kaiming He 162 3,262 0 10 Dec 2018
From Recognition to Cognition: Visual Commonsense Reasoning Rowan Zellers Yonatan Bisk Ali Farhadi Yejin Choi LRM BDL OCL ReLM 151 877 0 27 Nov 2018
TSM: Temporal Shift Module for Efficient Video Understanding Ji Lin Chuang Gan Song Han 85 1,683 0 20 Nov 2018
End-to-End Dense Video Captioning with Masked Transformer Luowei Zhou Yingbo Zhou Jason J. Corso R. Socher Caiming Xiong 88 528 0 03 Apr 2018
Motion-Appearance Co-Memory Networks for Video Question Answering J. Gao Runzhou Ge Kan Chen Ram Nevatia 111 241 0 29 Mar 2018
Deep contextualized word representations Matthew E. Peters Mark Neumann Mohit Iyyer Matt Gardner Christopher Clark Kenton Lee Luke Zettlemoyer NAI 182 11,542 0 15 Feb 2018
Localizing Moments in Video with Natural Language Lisa Anne Hendricks Oliver Wang Eli Shechtman Josef Sivic Trevor Darrell Bryan C. Russell 107 944 0 04 Aug 2017
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 219 7,989 0 22 May 2017
Dense-Captioning Events in Videos Ranjay Krishna Kenji Hata F. Ren Li Fei-Fei Juan Carlos Niebles 134 1,242 0 02 May 2017
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Zhuowen Tu Kaiming He 476 10,305 0 16 Nov 2016