Visual Madlibs: Fill in the blank Image Generation and Question Answering

31 May 2015

Licheng Yu

Papers citing "Visual Madlibs: Fill in the blank Image Generation and Question Answering"

25 / 25 papers shown

Title
What Makes a Maze Look Like a Maze? Joy Hsu Jiayuan Mao J. Tenenbaum Noah D. Goodman Jiajun Wu OCL 70 6 0 12 Sep 2024
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models Ali Borji CoGe 15 1 0 28 Jan 2023
3D Question Answering Shuquan Ye Dongdong Chen Songfang Han Jing Liao ViT 31 47 0 15 Dec 2021
Show Why the Answer is Correct! Towards Explainable AI using Compositional Temporal Attention Nihar Bendre K. Desai Peyman Najafirad CoGe 31 6 0 15 May 2021
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines Jingxiang Lin Unnat Jain Alex Schwing LRM ReLM 37 9 0 31 Oct 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 29 133 0 22 Jul 2019
From Recognition to Cognition: Visual Commonsense Reasoning Rowan Zellers Yonatan Bisk Ali Farhadi Yejin Choi LRM BDL OCL ReLM 82 868 0 27 Nov 2018
TVQA: Localized, Compositional Video Question Answering Muhammad Abdul Wahab Licheng Yu Mounir Nasr Allah Tamara L. Berg 36 617 0 05 Sep 2018
Disjoint Multi-task Learning between Heterogeneous Human-centric Tasks Dong-Jin Kim Jinsoo Choi Tae-Hyun Oh Youngjin Yoon In So Kweon 24 27 0 14 Feb 2018
Detecting and Recognizing Human-Object Interactions Georgia Gkioxari Ross B. Girshick Piotr Dollár Kaiming He 35 571 0 24 Apr 2017
Learning Two-Branch Neural Networks for Image-Text Matching Tasks Liwei Wang Yin Li Jing-ling Huang Svetlana Lazebnik VLM 27 494 0 11 Apr 2017
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Li Fei-Fei C. L. Zitnick Ross B. Girshick CoGe 152 2,324 0 20 Dec 2016
Visual Dialog Abhishek Das Satwik Kottur Khushi Gupta Avi Singh Deshraj Yadav José M. F. Moura Devi Parikh Dhruv Batra 71 990 0 26 Nov 2016
A dataset and exploration of models for understanding video data through fill-in-the-blank question-answering Tegan Maharaj Nicolas Ballas Anna Rohrbach Aaron Courville C. Pal VGen 15 107 0 23 Nov 2016
Visual Question: Predicting If a Crowd Will Agree on the Answer Danna Gurari Kristen Grauman HAI 29 2 0 29 Aug 2016
Solving Visual Madlibs with Multiple Cues Tatiana Tommasi Arun Mallya Bryan A. Plummer Svetlana Lazebnik Alexander C. Berg Tamara L. Berg 37 18 0 11 Aug 2016
Mean Box Pooling: A Rich Image Representation and Output Embedding for the Visual Madlibs Task Ashkan Mokarian Mateusz Malinowski Mario Fritz 27 5 0 09 Aug 2016
Learning Models for Actions and Person-Object Interactions with Transfer to Question Answering Arun Mallya Svetlana Lazebnik 39 119 0 16 Apr 2016
Where To Look: Focus Regions for Visual Question Answering Kevin J. Shih Saurabh Singh Derek Hoiem 34 456 0 23 Nov 2015
Uncovering Temporal Context for Video Question and Answering Linchao Zhu Zhongwen Xu Yi Yang Alexander G. Hauptmann BDL 27 44 0 15 Nov 2015
Visual7W: Grounded Question Answering in Images Yuke Zhu Oliver Groth Michael S. Bernstein Li Fei-Fei 44 875 0 11 Nov 2015
Neural Module Networks Jacob Andreas Marcus Rohrbach Trevor Darrell Dan Klein CoGe 66 1,062 0 09 Nov 2015
Explicit Knowledge-based Reasoning for Visual Question Answering Peng Wang Qi Wu Chunhua Shen Anton Van Den Hengel A. Dick 39 257 0 09 Nov 2015
Ask Your Neurons: A Neural-based Approach to Answering Questions about Images Mateusz Malinowski Marcus Rohrbach Mario Fritz 41 596 0 05 May 2015
A Multi-View Embedding Space for Modeling Internet Images, Tags, and their Semantics Yunchao Gong Qifa Ke Michael Isard Svetlana Lazebnik 3DV 78 584 0 18 Dec 2012