Title
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Li Fei-Fei C. L. Zitnick Ross B. Girshick CoGe 360 2,394 0 20 Dec 2016
Automatic Generation of Grounded Visual Questions Shijie Zhang Zhuang Li Shaodi You Zhenglu Yang Jiawan Zhang OOD 79 79 0 20 Dec 2016
The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions Peng Wang Qi Wu Chunhua Shen Anton Van Den Hengel OOD 90 86 0 16 Dec 2016
The More You Know: Using Knowledge Graphs for Image Classification Kenneth Marino Ruslan Salakhutdinov Abhinav Gupta GNN OCL 124 347 0 14 Dec 2016
ImageNet pre-trained models with batch normalization Marcel Simon E. Rodner Joachim Denzler VLM SSeg 104 166 0 05 Dec 2016
Multi-Label Image Classification with Regional Latent Semantic Dependencies Junjie Zhang Qi Wu Chunhua Shen Jian Zhang Jianfeng Lu 96 168 0 04 Dec 2016
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 397 3,275 0 02 Dec 2016
Modeling Relationships in Referential Expressions with Compositional Modular Networks Ronghang Hu Marcus Rohrbach Jacob Andreas Trevor Darrell Kate Saenko 84 407 0 30 Nov 2016
Dense Captioning with Joint Inference and Visual Context L. Yang K. Tang Jianchao Yang Li Li VLM 103 170 0 21 Nov 2016
Phrase Localization and Visual Relationship Detection with Comprehensive Image-Language Cues Bryan A. Plummer Arun Mallya Christopher M. Cervantes Julia Hockenmaier Svetlana Lazebnik 139 189 0 21 Nov 2016
A Hierarchical Approach for Generating Descriptive Image Paragraphs J. Krause Justin Johnson Ranjay Krishna Li Fei-Fei VLM 106 379 0 20 Nov 2016
SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning Long Chen Hanwang Zhang Jun Xiao Liqiang Nie Jian Shao Wei Liu Tat-Seng Chua 84 1,666 0 17 Nov 2016
Zero-Shot Visual Question Answering Damien Teney Anton Van Den Hengel 90 74 0 17 Nov 2016
The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Narratives Mohit Iyyer Varun Manjunatha Anupam Guha Yogarshi Vyas Jordan L. Boyd-Graber Hal Daumé L. Davis 85 100 0 16 Nov 2016
Spatio-Temporal Attention Models for Grounded Video Captioning M. Zanfir Elisabeta Marinoiu C. Sminchisescu 122 50 0 17 Oct 2016
Visual Question Answering: Datasets, Algorithms, and Future Challenges Kushal Kafle Christopher Kanan OOD 101 244 0 05 Oct 2016
A Rotation Invariant Latent Factor Model for Moveme Discovery from Static Poses M. R. Ronchi Joon Sik Kim Yisong Yue 40 4 0 23 Sep 2016
On Support Relations and Semantic Scene Graphs M. Yang Wentong Liao H. Ackermann Bodo Rosenhahn GNN 85 60 0 19 Sep 2016
Graph-Structured Representations for Visual Question Answering Damien Teney Lingqiao Liu Anton Van Den Hengel GNN NAI 123 422 0 19 Sep 2016
A Glimpse Far into the Future: Understanding Long-term Crowd Worker Quality Kenji Hata Ranjay Krishna Fei-Fei Li Michael S. Bernstein 111 43 0 15 Sep 2016
Learning to generalize to new compositions in image understanding Yuval Atzmon Jonathan Berant Vahid Kezami Amir Globerson Gal Chechik 82 67 0 27 Aug 2016
Solving Visual Madlibs with Multiple Cues Tatiana Tommasi Arun Mallya Bryan A. Plummer Svetlana Lazebnik Alexander C. Berg Tamara L. Berg 85 18 0 11 Aug 2016
Modeling Context Between Objects for Referring Expression Understanding Varun K. Nagaraja Vlad I. Morariu Larry S. Davis 79 161 0 01 Aug 2016
Visual Relationship Detection with Language Priors Cewu Lu Ranjay Krishna Michael S. Bernstein Li Fei-Fei VLM 128 1,143 0 31 Jul 2016
SPICE: Semantic Propositional Image Caption Evaluation Peter Anderson Basura Fernando Mark Johnson Stephen Gould EGVM 162 1,930 0 29 Jul 2016
Much Ado About Time: Exhaustive Annotation of Temporal Data Gunnar Sigurdsson Olga Russakovsky Ali Farhadi Ivan Laptev Abhinav Gupta 89 28 0 25 Jul 2016
Visual Question Answering: A Survey of Methods and Datasets Qi Wu Damien Teney Peng Wang Chunhua Shen A. Dick Anton Van Den Hengel 113 418 0 20 Jul 2016
Annotation Methodologies for Vision and Language Dataset Creation Gitit Kehat James Pustejovsky 30 2 0 10 Jul 2016
Revisiting Visual Question Answering Baselines Allan Jabri Armand Joulin Laurens van der Maaten OOD 67 83 0 27 Jun 2016
FVQA: Fact-based Visual Question Answering Peng Wang Qi Wu Chunhua Shen Anton van den Hengel A. Dick CoGe 115 464 0 17 Jun 2016
Progressive Attention Networks for Visual Attribute Prediction Paul Hongsuck Seo Zhe Lin Scott D. Cohen Xiaohui Shen Bohyung Han 89 42 0 08 Jun 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 344 1,471 0 06 Jun 2016
Adversarial Feature Learning Jiasen Lu Philipp Krahenbuhl Trevor Darrell GAN 148 1,614 0 31 May 2016
Data Programming: Creating Large Training Sets, Quickly Alexander Ratner Christopher De Sa Sen Wu Daniel Selsam Christopher Ré 236 719 0 25 May 2016
Ask Your Neurons: A Deep Learning Approach to Visual Question Answering Mateusz Malinowski Marcus Rohrbach Mario Fritz 106 101 0 09 May 2016
Visual Storytelling Ting-Hao 'Kenneth' Huang Huang Francis Ferraro N. Mostafazadeh Ishan Misra ... C. L. Zitnick Devi Parikh Lucy Vanderwende Michel Galley Margaret Mitchell VGen 90 480 0 13 Apr 2016
Measuring and Predicting Tag Importance for Image Retrieval Shangwen Li S. Purushotham Chen Chen Yuzhuo Ren C.-C. Jay Kuo 62 32 0 28 Feb 2016
DenseCap: Fully Convolutional Localization Networks for Dense Captioning Justin Johnson A. Karpathy Li Fei-Fei VLM 133 1,172 0 24 Nov 2015
Visual7W: Grounded Question Answering in Images Yuke Zhu Oliver Groth Michael S. Bernstein Li Fei-Fei 157 890 0 11 Nov 2015
Explicit Knowledge-based Reasoning for Visual Question Answering Peng Wang Qi Wu Chunhua Shen Anton Van Den Hengel A. Dick 91 261 0 09 Nov 2015
Generation and Comprehension of Unambiguous Object Descriptions Junhua Mao Jonathan Huang Alexander Toshev Oana-Maria Camburu Alan Yuille Kevin Patrick Murphy ObjD 144 1,362 0 07 Nov 2015
RAID: A Relation-Augmented Image Descriptor Paul Guerrero Niloy J. Mitra Peter Wonka 40 6 0 05 Oct 2015
Semantic Amodal Segmentation Yan Zhu Yuandong Tian Dimitris N. Metaxas Piotr Dollár VLM 107 172 0 04 Sep 2015
Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models Bryan A. Plummer Liwei Wang Christopher M. Cervantes Juan C. Caicedo Julia Hockenmaier Svetlana Lazebnik 234 2,079 0 19 May 2015