Title
Understand, Compose and Respond - Answering Visual Questions by a Composition of Abstract Procedures B. Vatashsky S. Ullman CoGe 72 1 0 25 Oct 2018
Visual Semantic Navigation using Scene Priors Wei Yang Xinyu Wang Ali Farhadi Abhinav Gupta Roozbeh Mottaghi LM&Ro 100 325 0 15 Oct 2018
A Comprehensive Survey of Deep Learning for Image Captioning Md Zakir Hossain Ferdous Sohel M. Shiratuddin Hamid Laga VLM 3DV 191 781 0 06 Oct 2018
Team NimbRo at MBZIRC 2017: Autonomous Valve Stem Turning using a Wrench Max Schwarz David Droeschel Christian Lenz Arul Selvam Periyasamy En Yen Puang Jan Razlaw Diego Rodriguez Sebastian Schüller M. Schreiber Sven Behnke 60 16 0 06 Oct 2018
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering Hyeonwoo Noh Taehoon Kim Jonghwan Mun Bohyung Han 86 17 0 03 Oct 2018
RGB-D Object Detection and Semantic Segmentation for Autonomous Manipulation in Clutter Max Schwarz Anton Milan Arul Selvam Periyasamy Sven Behnke 3DPC 71 163 0 01 Oct 2018
Exploring Visual Relationship for Image Captioning Ting Yao Yingwei Pan Yehao Li Tao Mei 144 836 0 19 Sep 2018
Context-Dependent Diffusion Network for Visual Relationship Detection Zhen Cui Chunyan Xu Wenming Zheng Jian Yang GNN 79 50 0 11 Sep 2018
Recent Advances in Object Detection in the Age of Deep Convolutional Neural Networks Shivang Agarwal Jean Ogier du Terrail F. Jurie ObjD 158 125 0 10 Sep 2018
Deep Learning for Generic Object Detection: A Survey Li Liu Wanli Ouyang Xiaogang Wang Paul Fieguth Jie Chen Xinwang Liu M. Pietikäinen ObjD VLM OOD 240 2,469 0 06 Sep 2018
Object Hallucination in Image Captioning Anna Rohrbach Lisa Anne Hendricks Kaylee Burns Trevor Darrell Kate Saenko 236 445 0 06 Sep 2018
Interpretable Visual Question Answering by Reasoning on Dependency Trees Qingxing Cao Bailin Li Xiaodan Liang Liang Lin 72 56 0 06 Sep 2018
Straight to the Facts: Learning Knowledge Base Retrieval for Factual Visual Question Answering Medhini Narasimhan Alex Schwing 79 105 0 04 Sep 2018
OCNet: Object Context Network for Scene Parsing Yuhui Yuan Lang Huang Jianyuan Guo Chao Zhang Xilin Chen Jingdong Wang 91 605 0 04 Sep 2018
Diverse and Coherent Paragraph Generation from Images Moitreya Chatterjee Alex Schwing 75 67 0 03 Sep 2018
simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions Fenglin Liu Xuancheng Ren Yuanxin Liu Houfeng Wang Xu Sun 129 66 0 27 Aug 2018
Context-Aware Visual Policy Network for Sequence-Level Image Captioning Daqing Liu Zhengjun Zha Hanwang Zhang Yongdong Zhang Feng Wu CLIP 103 104 0 16 Aug 2018
Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining Yundong Zhang Juan Carlos Niebles Á. Soto 85 68 0 01 Aug 2018
Graph R-CNN for Scene Graph Generation Jianwei Yang Jiasen Lu Stefan Lee Dhruv Batra Devi Parikh GNN 145 845 0 01 Aug 2018
Shuffle-Then-Assemble: Learning Object-Agnostic Visual Relationship Features Xu Yang Hanwang Zhang Jianfei Cai 95 74 0 01 Aug 2018
Recurrent Fusion Network for Image Captioning Wenhao Jiang Lin Ma Yu-Gang Jiang Wen Liu Tong Zhang ObjD 86 236 0 26 Jul 2018
Pythia v0.1: the Winning Entry to the VQA Challenge 2018 Yu Jiang Vivek Natarajan Xinlei Chen Marcus Rohrbach Dhruv Batra Devi Parikh VLM 101 203 0 26 Jul 2018
Grounding Visual Explanations Lisa Anne Hendricks Ronghang Hu Trevor Darrell Zeynep Akata FAtt 59 230 0 25 Jul 2018
Visual Graphs from Motion (VGfM): Scene understanding with object geometry reasoning P. Gay Stuart James Alessio Del Bue OCL 87 31 0 16 Jul 2018
Object Relation Detection Based on One-shot Learning Li Zhou Jian-jun Zhao Jianshu Li Li-xin Yuan Jiashi Feng ObjD 56 23 0 16 Jul 2018
Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition Guojun Yin Lu Sheng Bin Liu Nenghai Yu Xiaogang Wang Jing Shao Chen Change Loy ObjD 93 156 0 13 Jul 2018
Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration De-An Huang Suraj Nair Danfei Xu Yuke Zhu Animesh Garg Li Fei-Fei Silvio Savarese Juan Carlos Niebles 98 140 0 10 Jul 2018
Dynamic Multimodal Instance Segmentation guided by natural language queries Edgar Margffoy-Tuay Juan C. Pérez Emilio Botero Pablo Arbelaez 98 176 0 06 Jul 2018
Long Activity Video Understanding using Functional Object-Oriented Network Ahmad Babaeian Jelodar D. Paulius Yu Sun 58 36 0 03 Jul 2018
COSMO: Contextualized Scene Modeling with Boltzmann Machines Ilker Bozcan Sinan Kalkan 66 15 0 02 Jul 2018
Factorizable Net: An Efficient Subgraph-based Framework for Scene Graph Generation Yikang Li Wanli Ouyang Bolei Zhou Jianping Shi Yawen Cui Xiaogang Wang GNN 88 275 0 29 Jun 2018
Generating Counterfactual Explanations with Natural Language Lisa Anne Hendricks Ronghang Hu Trevor Darrell Zeynep Akata FAtt 54 99 0 26 Jun 2018
Object Level Visual Reasoning in Videos Fabien Baradel Natalia Neverova Christian Wolf J. Mille Greg Mori 101 164 0 16 Jun 2018
Learning Visual Knowledge Memory Networks for Visual Question Answering Zhou Su Chen Zhu Yinpeng Dong Dongqi Cai Yurong Chen Jianguo Li 88 62 0 13 Jun 2018
Interactive Visual Grounding of Referring Expressions for Human-Robot Interaction Mohit Shridhar David Hsu 74 144 0 11 Jun 2018
Learning Answer Embeddings for Visual Question Answering Hexiang Hu Wei-Lun Chao Fei Sha 65 33 0 10 Jun 2018
Visual Reasoning by Progressive Module Networks Seung Wook Kim Makarand Tapaswi Sanja Fidler ReLM LRM 70 13 0 06 Jun 2018
Focal Visual-Text Attention for Visual Question Answering Junwei Liang Lu Jiang Liangliang Cao Li Li Alexander G. Hauptmann 68 112 0 05 Jun 2018
Visual Relationship Detection Based on Guided Proposals and Semantic Knowledge Distillation François Plesse A. Gînsca Bertrand Delezoide F. Prêteux 55 29 0 28 May 2018
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering Pan Lu Lei Ji Wei Zhang Nan Duan M. Zhou Jianyong Wang CoGe 61 79 0 24 May 2018
Bilinear Attention Networks Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang AIMat 139 880 0 21 May 2018
Token-level and sequence-level loss smoothing for RNN language models Maha Elbayad Laurent Besacier Jakob Verbeek 67 19 0 14 May 2018
Reciprocal Attention Fusion for Visual Question Answering M. Farazi Salman H Khan 72 14 0 11 May 2018
Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding Zhou Yu Jun-chen Yu Chenchao Xiang Zhou Zhao Q. Tian Dacheng Tao ObjD 75 141 0 09 May 2018
Automatic Metric Validation for Grammatical Error Correction Leshem Choshen Omri Abend 72 31 0 30 Apr 2018
Large-Scale Visual Relationship Understanding Ji Zhang Yannis Kalantidis Marcus Rohrbach Manohar Paluri Ahmed Elgammal Mohamed Elhoseiny 67 169 0 27 Apr 2018
VectorDefense: Vectorization as a Defense to Adversarial Examples V. Kabilan Brandon L. Morris Anh Totti Nguyen AAML 66 21 0 23 Apr 2018
Pragmatically Informative Image Captioning with Character-Level Inference Reuben Cohn-Gordon Noah D. Goodman Christopher Potts 58 97 0 15 Apr 2018
Zero-Shot Object Detection Ankan Bansal Karan Sikka Gaurav Sharma Rama Chellappa Ajay Divakaran VLM ObjD 109 361 0 12 Apr 2018
Learning a Text-Video Embedding from Incomplete and Heterogeneous Data Antoine Miech Ivan Laptev Josef Sivic 84 235 0 07 Apr 2018