MovieQA: Understanding Stories in Movies through Question-Answering

9 December 2015

Antonio Torralba

Sanja Fidler

Papers citing "MovieQA: Understanding Stories in Movies through Question-Answering"

50 / 202 papers shown

Title
Structured Co-reference Graph Attention for Video-grounded Dialogue Junyeong Kim Sunjae Yoon Dahyun Kim Chang D. Yoo 26 26 0 24 Mar 2021
English Machine Reading Comprehension Datasets: A Survey Daria Dzendzik Carl Vogel Jennifer Foster RALM AIMat 29 49 0 25 Jan 2021
Grid Search Hyperparameter Benchmarking of BERT, ALBERT, and LongFormer on DuoRC Alex John Quijano Sam Nguyen Juanita Ordoñez 29 7 0 15 Jan 2021
Recent Advances in Video Question Answering: A Review of Datasets and Methods Devshree Patel Ratnam Parikh Yesha Shastri 15 18 0 15 Jan 2021
MELINDA: A Multimodal Dataset for Biomedical Experiment Method Classification Te-Lin Wu Shikhar Singh S. Paul Gully A. Burns Nanyun Peng 30 18 0 16 Dec 2020
Movie Summarization via Sparse Graph Construction Pinelopi Papalampidi Frank Keller Mirella Lapata 27 32 0 14 Dec 2020
Intrinsically Motivated Compositional Language Emergence Rishi Hazra Sonu Dixit Sayambhu Sen 11 1 0 09 Dec 2020
CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions Tayfun Ates Muhammed Samil Atesoglu Cagatay Yigit .Ilker Kesen Mert Kobaş Erkut Erdem Aykut Erdem T. Goksun Deniz Yuret 27 31 0 08 Dec 2020
ActBERT: Learning Global-Local Video-Text Representations Linchao Zhu Yi Yang ViT 49 417 0 14 Nov 2020
MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering Aisha Urooj Khan Amir Mazaheri N. Lobo M. Shah 32 56 0 27 Oct 2020
TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-aware Dialog Wubo Li Dongwei Jiang Wei Zou Xiangang Li 23 6 0 21 Oct 2020
BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues Hung Le Doyen Sahoo Nancy F. Chen Guosheng Lin 52 30 0 20 Oct 2020
Hierarchical Conditional Relation Networks for Multimodal Video Question Answering T. Le Vuong Le Svetha Venkatesh T. Tran BDL 24 22 0 18 Oct 2020
What is More Likely to Happen Next? Video-and-Language Future Event Prediction Jie Lei Licheng Yu Tamara L. Berg Joey Tianyi Zhou 33 72 0 15 Oct 2020
Visual Question Answering on Image Sets Ankan Bansal Yuting Zhang Rama Chellappa CoGe 16 40 0 27 Aug 2020
AiR: Attention with Reasoning Capability Shi Chen Ming Jiang Jinhui Yang Qi Zhao LRM 13 36 0 28 Jul 2020
MovieNet: A Holistic Dataset for Movie Understanding Qingqiu Huang Yu Xiong Anyi Rao Jiaze Wang Dahua Lin VGen 45 235 0 21 Jul 2020
Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions Noa Garcia Yuta Nakashima 26 32 0 17 Jul 2020
A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and Benchmark Datasets Chengchang Zeng Shaobo Li Qin Li Jie Hu Jianjun Hu 31 101 0 21 Jun 2020
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA Hyounghun Kim Zineng Tang Joey Tianyi Zhou 33 31 0 13 May 2020
Condensed Movies: Story Based Retrieval with Contextual Embeddings Max Bain Arsha Nagrani A. Brown Andrew Zisserman 39 100 0 08 May 2020
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training Linjie Li Yen-Chun Chen Yu Cheng Zhe Gan Licheng Yu Jingjing Liu MLLM VLM OffRL AI4TS 57 494 0 01 May 2020
Learning Interactions and Relationships between Movie Characters Anna Kukleva Makarand Tapaswi Ivan Laptev 41 51 0 29 Mar 2020
Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning Zhiyuan Fang Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang 23 60 0 11 Mar 2020
A $^3$ : Accelerating Attention Mechanisms in Neural Networks with Approximation Tae Jun Ham Sungjun Jung Seonghak Kim Young H. Oh Yeonhong Park ... Jung-Hun Park Sanghee Lee Kyoung Park Jae W. Lee D. Jeong 24 214 0 22 Feb 2020
Text-based Question Answering from Information Retrieval and Deep Neural Network Perspectives: A Survey Zahra Abbasiyantaeb S. Momtazi RALM 30 69 0 16 Feb 2020
TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval Jie Lei Licheng Yu Tamara L. Berg Joey Tianyi Zhou 119 277 0 24 Jan 2020
Assessing the Robustness of Visual Question Answering Models Jia-Hong Huang Modar Alfadly Guohao Li M. Worring AAML OOD 28 23 0 30 Nov 2019
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines Jingxiang Lin Unnat Jain Alex Schwing LRM ReLM 37 9 0 31 Oct 2019
A Graph-Based Framework to Bridge Movies and Synopses Yu Xiong Chengyi Zhang Lingfeng Guo Hang Zhou Bolei Zhou Dahua Lin 32 62 0 24 Oct 2019
KnowIT VQA: Answering Knowledge-Based Questions about Videos Noa Garcia Mayu Otani Chenhui Chu Yuta Nakashima 30 77 0 23 Oct 2019
CATER: A diagnostic dataset for Compositional Actions and TEmporal Reasoning Rohit Girdhar Deva Ramanan 22 176 0 10 Oct 2019
CLEVRER: CoLlision Events for Video REpresentation and Reasoning Kexin Yi Yuta Saito Yunzhu Li Pushmeet Kohli Jiajun Wu Antonio Torralba J. Tenenbaum NAI 43 457 0 03 Oct 2019
A Better Way to Attend: Attention with Trees for Video Question Answering Hongyang Xue Wenqing Chu Zhou Zhao Deng Cai 25 33 0 05 Sep 2019
VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering Cătălina Cangea Eugene Belilovsky Pietro Lio Aaron Courville 16 17 0 14 Aug 2019
Video Face Clustering with Unknown Number of Clusters Makarand Tapaswi M. Law Sanja Fidler CVBM 32 60 0 09 Aug 2019
Moviescope: Large-scale Analysis of Movies using Multiple Modalities Paola Cascante-Bonilla Kalpathy Sitaraman Mengjia Luo Vicente Ordonez 30 39 0 08 Aug 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 25 133 0 22 Jul 2019
CraftAssist: A Framework for Dialogue-enabled Interactive Agents Jonathan Gray Kavya Srinet Yacine Jernite Haonan Yu Zhuoyuan Chen Demi Guo Siddharth Goyal C. L. Zitnick Arthur Szlam 41 39 0 19 Jul 2019
Learning Representations from Imperfect Time Series Data via Tensor Rank Regularization Paul Pu Liang Zhun Liu Yao-Hung Hubert Tsai Qibin Zhao Ruslan Salakhutdinov Louis-Philippe Morency AI4TS 30 81 0 01 Jul 2019
Open-Ended Long-Form Video Question Answering via Hierarchical Convolutional Self-Attention Networks Zhu Zhang Zhou Zhao Zhijie Lin Jingkuan Song Xiaofei He BDL 27 14 0 28 Jun 2019
Adversarial Multimodal Network for Movie Question Answering Zhaoquan Yuan Siyuan Sun Lixin Duan Xiao Wu Changsheng Xu 24 3 0 24 Jun 2019
ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering Zhou Yu D. Xu Jun-chen Yu Ting Yu Zhou Zhao Yueting Zhuang Dacheng Tao 24 440 0 06 Jun 2019
Terminology-based Text Embedding for Computing Document Similarities on Technical Content Hamid Mirisaee Éric Gaussier Cédric Lagnier Agnès Guerraz 18 3 0 05 Jun 2019
Scene Text Visual Question Answering Ali Furkan Biten Rubèn Pérez Tito Andrés Mafla Lluís Gómez Marçal Rusiñol Ernest Valveny C. V. Jawahar Dimosthenis Karatzas 39 343 0 31 May 2019
Fashion IQ: A New Dataset Towards Retrieving Images by Natural Language Feedback Hui Wu Yupeng Gao Xiaoxiao Guo Ziad Al-Halah Steven J. Rennie Kristen Grauman Rogerio Feris EgoV 28 63 0 30 May 2019
Towards Efficient Model Compression via Learned Global Ranking Ting-Wu Chin Ruizhou Ding Cha Zhang Diana Marculescu 16 170 0 28 Apr 2019
Dynamic Mini-batch SGD for Elastic Distributed Training: Learning in the Limbo of Resources Yanghua Peng Hang Zhang Yifei Ma Tong He Zhi-Li Zhang Sheng Zha Mu Li 28 23 0 26 Apr 2019
TVQA+: Spatio-Temporal Grounding for Video Question Answering Jie Lei Licheng Yu Tamara L. Berg Joey Tianyi Zhou 31 227 0 25 Apr 2019
Progressive Attention Memory Network for Movie Story Question Answering Junyeong Kim Minuk Ma Kyungsu Kim Sungjin Kim Chang D. Yoo 13 76 0 18 Apr 2019