Measuring Compositional Consistency for Video Question Answering

14 April 2022

Mona Gandhi

Mustafa Omer Gul

Eva Prakash

Madeleine Grunde-McLaughlin

Papers citing "Measuring Compositional Consistency for Video Question Answering"

36 / 36 papers shown

Title
Understanding and Evaluating Racial Biases in Image Captioning Dora Zhao Angelina Wang Olga Russakovsky 54 138 0 16 Jun 2021
Explaining Answers with Entailment Trees Bhavana Dalvi Peter Alexander Jansen Oyvind Tafjord Zhengnan Xie Hannah Smith Leighanna Pipatanangkura Peter Clark ReLM FAtt LRM 280 185 0 17 Apr 2021
AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning Madeleine Grunde-McLaughlin Ranjay Krishna Maneesh Agrawala CoGe 74 117 0 30 Mar 2021
Automatic Generation of Contrast Sets from Scene Graphs: Probing the Compositional Consistency of GQA Yonatan Bitton Gabriel Stanovsky Roy Schwartz Michael Elhadad CoGe 49 33 0 17 Mar 2021
Polyjuice: Generating Counterfactuals for Explaining, Evaluating, and Improving Models Tongshuang Wu Marco Tulio Ribeiro Jeffrey Heer Daniel S. Weld 89 249 0 01 Jan 2021
REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets Angelina Wang Alexander Liu Ryan Zhang Anat Kleiman Leslie Kim Dora Zhao Iroha Shirai Arvind Narayanan Olga Russakovsky 56 190 0 16 Apr 2020
Hierarchical Conditional Relation Networks for Video Question Answering T. Le Vuong Le Svetha Venkatesh T. Tran 66 259 0 25 Feb 2020
VQA-LOL: Visual Question Answering under the Lens of Logic Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang CoGe 49 75 0 19 Feb 2020
Break It Down: A Question Understanding Benchmark Tomer Wolfson Mor Geva Ankit Gupta Matt Gardner Yoav Goldberg Daniel Deutch Jonathan Berant 68 188 0 31 Jan 2020
Action Genome: Actions as Composition of Spatio-temporal Scene Graphs Jingwei Ji Ranjay Krishna Li Fei-Fei Juan Carlos Niebles 68 344 0 15 Dec 2019
CATER: A diagnostic dataset for Compositional Actions and TEmporal Reasoning Rohit Girdhar Deva Ramanan 52 177 0 10 Oct 2019
Meta Module Network for Compositional Visual Reasoning Wenhu Chen Zhe Gan Linjie Li Yu Cheng Wenjie Wang Jingjing Liu LRM 55 70 0 08 Oct 2019
CLEVRER: CoLlision Events for Video REpresentation and Reasoning Kexin Yi Yuta Saito Yunzhu Li Pushmeet Kohli Jiajun Wu Antonio Torralba J. Tenenbaum NAI 104 473 0 03 Oct 2019
Sunny and Dark Outside?! Improving Answer Consistency in VQA through Entailed Question Generation Arijit Ray Karan Sikka Ajay Divakaran Stefan Lee Giedrius Burachas 48 65 0 10 Sep 2019
Multi-hop Reading Comprehension through Question Decomposition and Rescoring Sewon Min Victor Zhong Luke Zettlemoyer Hannaneh Hajishirzi ReLM 56 234 0 07 Jun 2019
ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering Zhou Yu D. Xu Jun-chen Yu Ting Yu Zhou Zhao Yueting Zhuang Dacheng Tao 101 461 0 06 Jun 2019
Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering Chenyou Fan Xiaofan Zhang Shu Zhang Wensheng Wang Chi Zhang Heng-Chiao Huang 44 278 0 08 Apr 2019
Cycle-Consistency for Robust Visual Question Answering Meet Shah Xinlei Chen Marcus Rohrbach Devi Parikh OOD 57 189 0 15 Feb 2019
VQA with no questions-answers training B. Vatashsky S. Ullman 73 13 0 20 Nov 2018
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering Zhilin Yang Peng Qi Saizheng Zhang Yoshua Bengio William W. Cohen Ruslan Salakhutdinov Christopher D. Manning RALM 150 2,635 0 25 Sep 2018
TVQA: Localized, Compositional Video Question Answering Muhammad Abdul Wahab Licheng Yu Mounir Nasr Allah Tamara L. Berg 83 636 0 05 Sep 2018
Grounding Visual Explanations Lisa Anne Hendricks Ronghang Hu Trevor Darrell Zeynep Akata FAtt 53 227 0 25 Jul 2018
Women also Snowboard: Overcoming Bias in Captioning Models (Extended Abstract) Lisa Anne Hendricks Kaylee Burns Kate Saenko Trevor Darrell Anna Rohrbach 95 480 0 02 Jul 2018
Visual Question Reasoning on General Dependency Tree Qingxing Cao Xiaodan Liang Bailin Li Guanbin Li Liang Lin CoGe 52 37 0 31 Mar 2018
DeepStory: Video Story QA by Deep Embedded Memory Networks Kyung-Min Kim Min-Oh Heo Seongho Choi Byoung-Tak Zhang 58 174 0 04 Jul 2017
Learning to Reason: End-to-End Module Networks for Visual Question Answering Ronghang Hu Jacob Andreas Marcus Rohrbach Trevor Darrell Kate Saenko KELM GNN ReLM LRM 118 577 0 18 Apr 2017
TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering Y. Jang Yale Song Youngjae Yu Youngjin Kim Gunhee Kim 72 553 0 14 Apr 2017
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Li Fei-Fei C. L. Zitnick Ross B. Girshick CoGe 289 2,367 0 20 Dec 2016
MarioQA: Answering Questions by Watching Gameplay Videos Jonghwan Mun Paul Hongsuck Seo Ilchae Jung Bohyung Han 81 109 0 06 Dec 2016
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization Ramprasaath R. Selvaraju Michael Cogswell Abhishek Das Ramakrishna Vedantam Devi Parikh Dhruv Batra FAtt 268 19,929 0 07 Oct 2016
Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding Gunnar Sigurdsson Gül Varol Xinyu Wang Ali Farhadi Ivan Laptev Abhinav Gupta VGen 92 1,245 0 06 Apr 2016
Generating Visual Explanations Lisa Anne Hendricks Zeynep Akata Marcus Rohrbach Jeff Donahue Bernt Schiele Trevor Darrell VLM FAtt 81 618 0 28 Mar 2016
Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Ranjay Krishna Yuke Zhu Oliver Groth Justin Johnson Kenji Hata ... Yannis Kalantidis Li Li David A. Shamma Michael S. Bernstein Fei-Fei Li 196 5,726 0 23 Feb 2016
"Why Should I Trust You?": Explaining the Predictions of Any Classifier Marco Tulio Ribeiro Sameer Singh Carlos Guestrin FAtt FaML 1.1K 16,931 0 16 Feb 2016
MovieQA: Understanding Stories in Movies through Question-Answering Makarand Tapaswi Yukun Zhu Rainer Stiefelhagen Antonio Torralba R. Urtasun Sanja Fidler 109 742 0 09 Dec 2015
Neural Module Networks Jacob Andreas Marcus Rohrbach Trevor Darrell Dan Klein CoGe 129 1,071 0 09 Nov 2015