v1v2v3 (latest)

Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods

22 July 2019

Papers citing "Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods"

50 / 294 papers shown

Title
Probabilistic Neural-symbolic Models for Interpretable Visual Question Answering Ramakrishna Vedantam Karan Desai Stefan Lee Marcus Rohrbach Dhruv Batra Devi Parikh NAI BDL 61 87 0 21 Feb 2019
Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey Longlong Jing Yingli Tian SSL 159 1,700 0 16 Feb 2019
Cycle-Consistency for Robust Visual Question Answering Meet Shah Xinlei Chen Marcus Rohrbach Devi Parikh OOD 65 190 0 15 Feb 2019
Audio-Visual Scene-Aware Dialog Huda AlAmri Vincent Cartillier Abhishek Das Jue Wang A. Cherian ... Tim K. Marks Chiori Hori Peter Anderson Stefan Lee Devi Parikh VGen 54 194 0 25 Jan 2019
Improving Image Captioning by Leveraging Knowledge Graphs Yimin Zhou Yiwei Sun Vasant Honavar VLM 48 55 0 25 Jan 2019
Cross-lingual Language Model Pretraining Guillaume Lample Alexis Conneau 107 2,748 0 22 Jan 2019
Visual Entailment: A Novel Task for Fine-Grained Image Understanding Ning Xie Farley Lai Derek Doran Asim Kadav CoGe 117 325 0 20 Jan 2019
Self-Monitoring Navigation Agent via Auxiliary Progress Estimation Chih-Yao Ma Jiasen Lu Zuxuan Wu G. Al-Regib Z. Kira R. Socher Caiming Xiong LM&Ro 92 277 0 10 Jan 2019
CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions Runtao Liu Chenxi Liu Yutong Bai Alan Yuille NAI ObjD 77 123 0 03 Jan 2019
Generating Multiple Objects at Spatially Distinct Locations Tobias Hinz Stefan Heinrich S. Wermter 81 103 0 03 Jan 2019
nocaps: novel object captioning at scale Harsh Agrawal Karan Desai Yufei Wang Xinlei Chen Rishabh Jain Mark Johnson Dhruv Batra Devi Parikh Stefan Lee Peter Anderson VLM 131 486 0 20 Dec 2018
Sequential Attention GAN for Interactive Image Editing Yu Cheng Zhe Gan Yitong Li Jingjing Liu Jianfeng Gao 63 98 0 20 Dec 2018
Grounded Video Description Luowei Zhou Yannis Kalantidis Xinlei Chen Jason J. Corso Marcus Rohrbach 83 193 0 17 Dec 2018
Vision-based Navigation with Language-based Assistance via Imitation Learning with Indirect Intervention Khanh Nguyen Debadeepta Dey Chris Brockett W. Dolan LM&Ro 76 131 0 10 Dec 2018
Spatial Knowledge Distillation to aid Visual Reasoning Somak Aditya Rudra Saha Yezhou Yang Chitta Baral 56 15 0 10 Dec 2018
StoryGAN: A Sequential Conditional GAN for Story Visualization Yitong Li Zhe Gan Yelong Shen Jingjing Liu Yu Cheng Yuexin Wu Lawrence Carin David Carlson Jianfeng Gao 100 233 0 06 Dec 2018
Recursive Visual Attention in Visual Dialog Yulei Niu Hanwang Zhang Manli Zhang Jianhong Zhang Zhiwu Lu Ji-Rong Wen 88 119 0 06 Dec 2018
Explainable and Explicit Visual Reasoning over Scene Graphs Jiaxin Shi Hanwang Zhang Juan-Zi Li OCL 198 234 0 05 Dec 2018
Multi-task Learning of Hierarchical Vision-Language Representation Duy-Kien Nguyen Takayuki Okatani 98 52 0 03 Dec 2018
Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments Howard Chen Alane Suhr Dipendra Kumar Misra Noah Snavely Yoav Artzi 84 390 0 29 Nov 2018
Unsupervised Multi-modal Neural Machine Translation Yuanhang Su Kai Fan Nguyen Bach C.-C. Jay Kuo Fei Huang 130 63 0 28 Nov 2018
From Recognition to Cognition: Visual Commonsense Reasoning Rowan Zellers Yonatan Bisk Ali Farhadi Yejin Choi LRM BDL OCL ReLM 164 881 0 27 Nov 2018
Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions Marcella Cornia Lorenzo Baraldi Rita Cucchiara DiffM 77 175 0 26 Nov 2018
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation Xin Eric Wang Qiuyuan Huang Asli Celikyilmaz Jianfeng Gao Dinghan Shen Yuan-fang Wang William Yang Wang Lei Zhang LM&Ro SSL 105 540 0 25 Nov 2018
Explicit Bias Discovery in Visual Question Answering Models Varun Manjunatha Nirat Saini L. Davis CML FAtt 53 93 0 19 Nov 2018
CUNI System for the WMT18 Multimodal Translation Task Jindřich Helcl Jindrich Libovický Dušan Variš 90 57 0 12 Nov 2018
A Corpus for Reasoning About Natural Language Grounded in Photographs Alane Suhr Stephanie Zhou Ally Zhang Iris Zhang Huajun Bai Yoav Artzi LRM 106 608 0 01 Nov 2018
Latent Variable Model for Multi-modal Translation Iacer Calixto Miguel Rios Wilker Aziz 42 3 0 01 Nov 2018
How2: A Large-scale Dataset for Multimodal Language Understanding Ramon Sanabria Ozan Caglayan Shruti Palaskar Desmond Elliott Loïc Barrault Lucia Specia Florian Metze VGen MLLM 84 291 0 01 Nov 2018
Text-Adaptive Generative Adversarial Networks: Manipulating Images with Natural Language Seonghyeon Nam Yunji Kim Seon Joo Kim GAN 79 207 0 29 Oct 2018
Neural Modular Control for Embodied Question Answering Abhishek Das Georgia Gkioxari Stefan Lee Devi Parikh Dhruv Batra LM&Ro 185 130 0 26 Oct 2018
Engaging Image Captioning Via Personality Kurt Shuster Samuel Humeau Hexiang Hu Antoine Bordes Jason Weston 82 152 0 25 Oct 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.8K 95,175 0 11 Oct 2018
A Comprehensive Survey of Deep Learning for Image Captioning Md Zakir Hossain Ferdous Sohel M. Shiratuddin Hamid Laga VLM 3DV 103 777 0 06 Oct 2018
Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding Kexin Yi Jiajun Wu Chuang Gan Antonio Torralba Pushmeet Kohli J. Tenenbaum NAI 84 611 0 04 Oct 2018
Beyond task success: A closer look at jointly learning to see, ask, and GuessWhat Ravi Shekhar Aashish Venkatesh Tim Baumgärtner Elia Bruni Barbara Plank Raffaella Bernardi Raquel Fernández 42 51 0 10 Sep 2018
Cascaded Mutual Modulation for Visual Reasoning Yiqun Yao Jiaming Xu Feng Wang Bo Xu LRM 55 14 0 06 Sep 2018
Visual Coreference Resolution in Visual Dialog using Neural Module Networks Satwik Kottur José M. F. Moura Devi Parikh Dhruv Batra Marcus Rohrbach 56 165 0 06 Sep 2018
TVQA: Localized, Compositional Video Question Answering Muhammad Abdul Wahab Licheng Yu Mounir Nasr Allah Tamara L. Berg 97 642 0 05 Sep 2018
Mapping Instructions to Actions in 3D Environments with Visual Goal Prediction Dipendra Kumar Misra Andrew Bennett Valts Blukis Eyvind Niklasson Max Shatkhin Yoav Artzi LM&Ro 80 188 0 04 Sep 2018
LIUM-CVC Submissions for WMT18 Multimodal Translation Task Ozan Caglayan Adrien Bardet Fethi Bougares Loïc Barrault M. García-Martínez Marc Masana Luis Herranz Joost van de Weijer 62 42 0 01 Sep 2018
The MeMAD Submission to the WMT18 Multimodal Translation Task Stig-Arne Gronroos B. Huet M. Kurimo Jorma T. Laaksonen B. Mérialdo ... Mats Sjöberg U. Sulubacak Jörg Tiedemann Raphael Troncy Raúl Vázquez 44 64 0 31 Aug 2018
A Visual Attention Grounding Neural Model for Multimodal Machine Translation Mingyang Zhou Runxiang Cheng Yong Jae Lee Zhou Yu 92 79 0 24 Aug 2018
Visual Reasoning with Multi-hop Feature Modulation Florian Strub Mathieu Seurin Ethan Perez H. D. Vries Jérémie Mary Philippe Preux Aaron Courville Olivier Pietquin 70 26 0 03 Aug 2018
Textual Explanations for Self-Driving Vehicles Jinkyu Kim Anna Rohrbach Trevor Darrell John F. Canny Zeynep Akata 60 346 0 30 Jul 2018
Video Storytelling: Textual Summaries for Events Junnan Li Yongkang Wong Qi Zhao Mohan Kankanhalli DiffM 46 46 0 25 Jul 2018
Explainable Neural Computation via Stack Neural Module Networks Ronghang Hu Jacob Andreas Trevor Darrell Kate Saenko LRM OCL 78 199 0 23 Jul 2018
On Evaluation of Embodied Navigation Agents Peter Anderson Angel X. Chang Devendra Singh Chaplot Alexey Dosovitskiy Saurabh Gupta ... Jana Kosecka Jitendra Malik Roozbeh Mottaghi Manolis Savva Amir Zamir 117 802 0 18 Jul 2018
Measuring abstract reasoning in neural networks David Barrett Felix Hill Adam Santoro Ari S. Morcos Timothy Lillicrap OOD 78 362 0 11 Jul 2018
Talk the Walk: Navigating New York City through Grounded Dialogue H. D. Vries Kurt Shuster Dhruv Batra Devi Parikh Jason Weston Douwe Kiela 70 124 0 09 Jul 2018