Title
Scene Text Visual Question Answering Ali Furkan Biten Rubèn Pérez Tito Andrés Mafla Lluís Gómez Marçal Rusiñol Ernest Valveny C. V. Jawahar Dimosthenis Karatzas 126 361 0 31 May 2019
A Simple Pooling-Based Design for Real-Time Salient Object Detection Jiangjiang Liu Qibin Hou Ming-Ming Cheng Jiashi Feng Jianmin Jiang ObjD 107 867 0 21 Apr 2019
Towards VQA Models That Can Read Amanpreet Singh Vivek Natarajan Meet Shah Yu Jiang Xinlei Chen Dhruv Batra Devi Parikh Marcus Rohrbach EgoV 154 1,257 0 18 Apr 2019
Online PCB Defect Detector On A New PCB Defect Dataset Sanli Tang Fan He Xiaolin Huang Jie Yang 38 105 0 17 Feb 2019
nocaps: novel object captioning at scale Harsh Agrawal Karan Desai Yufei Wang Xinlei Chen Rishabh Jain Mark Johnson Dhruv Batra Devi Parikh Stefan Lee Peter Anderson VLM 148 488 0 20 Dec 2018
CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark Jiefeng Li Can Wang Hao Zhu Yihuan Mao Haoshu Fang Cewu Lu 74 513 0 02 Dec 2018
From Recognition to Cognition: Visual Commonsense Reasoning Rowan Zellers Yonatan Bisk Ali Farhadi Yejin Choi LRM BDL OCL ReLM 215 885 0 27 Nov 2018
CrowdHuman: A Benchmark for Detecting Human in a Crowd Shuai Shao Zijian Zhao Boxun Li Tete Xiao Gang Yu Xiangyu Zhang Jian Sun 287 689 0 30 Apr 2018
VizWiz Grand Challenge: Answering Visual Questions from Blind People Danna Gurari Qing Li Abigale Stangl Anhong Guo Chi Lin Kristen Grauman Jiebo Luo Jeffrey P. Bigham CoGe 141 864 0 22 Feb 2018
DVQA: Understanding Data Visualizations via Question Answering Kushal Kafle Brian L. Price Scott D. Cohen Christopher Kanan AIMat 111 397 0 24 Jan 2018
DOTA: A Large-scale Dataset for Object Detection in Aerial Images Gui-Song Xia X. Bai Jian Ding Zhen Zhu Serge J. Belongie Jiebo Luo Mihai Datcu Marcello Pelillo Liangpei Zhang ObjD 137 2,202 0 28 Nov 2017
Simple and Effective Multi-Paragraph Reading Comprehension Christopher Clark Matt Gardner RALM 113 459 0 29 Oct 2017
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 375 3,275 0 02 Dec 2016
Modeling Context in Referring Expressions Licheng Yu Patrick Poirson Shan Yang Alexander C. Berg Tamara L. Berg 135 1,281 0 31 Jul 2016
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 437 10,560 0 21 Jul 2016
Gaussian Error Linear Units (GELUs) Dan Hendrycks Kevin Gimpel 180 8 0 27 Jun 2016
The Cityscapes Dataset for Semantic Urban Scene Understanding Marius Cordts Mohamed Omran Sebastian Ramos Timo Rehfeld Markus Enzweiler Rodrigo Benenson Uwe Franke Stefan Roth Bernt Schiele 1.1K 11,685 0 06 Apr 2016
A Diagram Is Worth A Dozen Images Aniruddha Kembhavi M. Salvato Eric Kolve Minjoon Seo Hannaneh Hajishirzi Ali Farhadi 3DV 103 505 0 24 Mar 2016
Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Ranjay Krishna Yuke Zhu Oliver Groth Justin Johnson Kenji Hata ... Yannis Kalantidis Li Li David A. Shamma Michael S. Bernstein Fei-Fei Li 240 5,779 0 23 Feb 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.3K 195,003 0 10 Dec 2015
Generation and Comprehension of Unambiguous Object Descriptions Junhua Mao Jonathan Huang Alexander Toshev Oana-Maria Camburu Alan Yuille Kevin Patrick Murphy ObjD 142 1,362 0 07 Nov 2015
Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models Bryan A. Plummer Liwei Wang Christopher M. Cervantes Juan C. Caicedo Julia Hockenmaier Svetlana Lazebnik 232 2,079 0 19 May 2015
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 295 2,500 0 01 Apr 2015
Microsoft COCO: Common Objects in Context Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 457 43,954 0 01 May 2014