v1v2v3 (latest)

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

25 July 2017

Lei Zhang

Papers citing "Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering"

50 / 1,868 papers shown

Title
Exploring Visual Relationship for Image Captioning Ting Yao Yingwei Pan Yehao Li Tao Mei 111 836 0 19 Sep 2018
The Wisdom of MaSSeS: Majority, Subjectivity, and Semantic Similarity in the Evaluation of VQA Shailza Jolly Sandro Pezzelle T. Klein Andreas Dengel Moin Nabi 31 2 0 12 Sep 2018
End-to-end Image Captioning Exploits Multimodal Distributional Similarity Pranava Madhyastha Josiah Wang Lucia Specia CoGe 63 7 0 11 Sep 2018
Faithful Multimodal Explanation for Visual Question Answering Jialin Wu Raymond J. Mooney 77 91 0 08 Sep 2018
Visual Coreference Resolution in Visual Dialog using Neural Module Networks Satwik Kottur José M. F. Moura Devi Parikh Dhruv Batra Marcus Rohrbach 77 165 0 06 Sep 2018
Interpretable Visual Question Answering by Reasoning on Dependency Trees Qingxing Cao Bailin Li Xiaodan Liang Liang Lin 72 56 0 06 Sep 2018
Bottom-Up Abstractive Summarization Sebastian Gehrmann Yuntian Deng Alexander M. Rush CVBM 193 689 0 31 Aug 2018
LUCSS: Language-based User-customized Colourization of Scene Sketches C. Zou Haoran Mo Ruofei Du Xing Wu Chengying Gao Hongbo Fu 44 8 0 30 Aug 2018
Adapting Visual Question Answering Models for Enhancing Multimodal Community Q&A Platforms Avikalp Srivastava Hsin Wen Liu Sumio Fujita 30 3 0 29 Aug 2018
Context-Aware Visual Policy Network for Sequence-Level Image Captioning Daqing Liu Zhengjun Zha Hanwang Zhang Yongdong Zhang Feng Wu CLIP 92 104 0 16 Aug 2018
Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association Dapeng Chen Hongsheng Li Xihui Liu Yantao Shen Zejian Yuan Xiaogang Wang 84 134 0 05 Aug 2018
Recurrent Fusion Network for Image Captioning Wenhao Jiang Lin Ma Yu-Gang Jiang Wen Liu Tong Zhang ObjD 83 236 0 26 Jul 2018
Pythia v0.1: the Winning Entry to the VQA Challenge 2018 Yu Jiang Vivek Natarajan Xinlei Chen Marcus Rohrbach Dhruv Batra Devi Parikh VLM 95 203 0 26 Jul 2018
Explainable Neural Computation via Stack Neural Module Networks Ronghang Hu Jacob Andreas Trevor Darrell Kate Saenko LRM OCL 106 199 0 23 Jul 2018
"Factual" or "Emotional": Stylized Image Captioning with Adaptive Learning and Attention Tianlang Chen Zhongping Zhang Quanzeng You Chen Fang Zhaowen Wang Hailin Jin Jiebo Luo 107 87 0 10 Jul 2018
Latent Alignment and Variational Attention Yuntian Deng Yoon Kim Justin T. Chiu Demi Guo Alexander M. Rush BDL 68 111 0 10 Jul 2018
Video Captioning with Boundary-aware Hierarchical Language Decoding and Joint Video Prediction Xiangxi Shi Jianfei Cai Jiuxiang Gu Shafiq Joty 43 19 0 08 Jul 2018
Face-Cap: Image Captioning using Facial Expression Analysis Omid Mohamad Nezami Mark Dras Peter Anderson Len Hamey CVBM 55 27 0 06 Jul 2018
Understanding Visual Ads by Aligning Symbols and Objects using Co-Attention Karuna Ahuja Karan Sikka Anirban Roy Ajay Divakaran 92 10 0 04 Jul 2018
Women also Snowboard: Overcoming Bias in Captioning Models (Extended Abstract) Lisa Anne Hendricks Kaylee Burns Kate Saenko Trevor Darrell Anna Rohrbach 139 480 0 02 Jul 2018
Learning Conditioned Graph Structures for Interpretable Visual Question Answering Will Norcliffe-Brown Efstathios Vafeias Sarah Parisot GNN 82 239 0 19 Jun 2018
Partially-Supervised Image Captioning Peter Anderson Stephen Gould Mark Johnson 80 32 0 15 Jun 2018
Grounded Textual Entailment H. Vu Claudio Greco A. Erofeeva Somayeh Jafaritazehjan Guido M. Linders Marc Tanti A. Testoni Raffaella Bernardi Albert Gatt 78 29 0 14 Jun 2018
Focal Visual-Text Attention for Visual Question Answering Junwei Liang Lu Jiang Liangliang Cao Li Li Alexander G. Hauptmann 68 112 0 05 Jun 2018
Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech Aditya Deshpande J. Aneja Liwei Wang Alex Schwing David A. Forsyth 94 148 0 31 May 2018
Joint Image Captioning and Question Answering Jialin Wu Zeyuan Hu Raymond J. Mooney 52 13 0 22 May 2018
Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering" Shagun Sodhani Vardaan Pahuja 15 0 0 21 May 2018
Bilinear Attention Networks Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang AIMat 113 880 0 21 May 2018
Improving Image Captioning with Conditional Generative Adversarial Nets Chen Chen Shuai Mu Wanpeng Xiao Zexiong Ye Liesi Wu Qi Ju GAN 108 92 0 18 May 2018
Token-level and sequence-level loss smoothing for RNN language models Maha Elbayad Laurent Besacier Jakob Verbeek 64 19 0 14 May 2018
Reciprocal Attention Fusion for Visual Question Answering M. Farazi Salman H Khan 65 14 0 11 May 2018
Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding Zhou Yu Jun-chen Yu Chenchao Xiang Zhou Zhao Q. Tian Dacheng Tao ObjD 75 141 0 09 May 2018
Multilevel Language and Vision Integration for Text-to-Clip Retrieval Huijuan Xu Kun He Bryan A. Plummer Leonid Sigal Stan Sclaroff Kate Saenko CLIP 80 323 0 13 Apr 2018
Attention U-Net: Learning Where to Look for the Pancreas Ozan Oktay Jo Schlemper Loic Le Folgoc M. J. Lee M. Heinrich ... Jingyu Sun Nils Y. Hammerla Bernhard Kainz Ben Glocker Daniel Rueckert SSeg 172 5,106 0 11 Apr 2018
Question Type Guided Attention in Visual Question Answering Yang Shi Tommaso Furlanello Sheng Zha Anima Anandkumar 65 46 0 06 Apr 2018
Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning Dianqi Li Qiuyuan Huang Xiaodong He Lei Zhang Ming-Ting Sun 84 50 0 03 Apr 2018
Visual Question Reasoning on General Dependency Tree Qingxing Cao Xiaodan Liang Bailin Li Guanbin Li Liang Lin CoGe 83 37 0 31 Mar 2018
Guide Me: Interacting with Deep Networks Christian Rupprecht Iro Laina Nassir Navab Gregory Hager Federico Tombari HAI 68 38 0 30 Mar 2018
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 242 436 0 27 Mar 2018
Generalized Hadamard-Product Fusion Operators for Visual Question Answering Brendan Duke Graham W. Taylor 40 8 0 26 Mar 2018
Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data Xihui Liu Hongsheng Li Jing Shao Dapeng Chen Xiaogang Wang 89 133 0 22 Mar 2018
Stacked Cross Attention for Image-Text Matching Kuang-Huei Lee Xi Chen G. Hua Houdong Hu Xiaodong He 116 1,163 0 21 Mar 2018
Attention on Attention: Architectures for Visual Question Answering (VQA) Jasdeep Singh Vincent Ying Alex Nutkiewicz 60 26 0 21 Mar 2018
VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions Qing Li Qingyi Tao Shafiq Joty Jianfei Cai Jiebo Luo 100 109 0 20 Mar 2018
Inverse Visual Question Answering: A New Benchmark and VQA Diagnosis Tool Feng Liu Tao Xiang Timothy M. Hospedales Wankou Yang Changyin Sun 71 29 0 16 Mar 2018
Discriminability objective for training descriptive captions Ruotian Luo Brian L. Price Scott D. Cohen Gregory Shakhnarovich 118 203 0 12 Mar 2018
VizWiz Grand Challenge: Answering Visual Questions from Blind People Danna Gurari Qing Li Abigale Stangl Anhong Guo Chi Lin Kristen Grauman Jiebo Luo Jeffrey P. Bigham CoGe 147 864 0 22 Feb 2018
Agile Amulet: Real-Time Salient Object Detection with Contextual Attention Pingping Zhang Luyao Wang D. Wang Huchuan Lu Chunhua Shen ObjD 88 21 0 20 Feb 2018
Learning to Count Objects in Natural Images for Visual Question Answering Yan Zhang Jonathon S. Hare Adam Prugel-Bennett OOD 85 208 0 15 Feb 2018
Dual Recurrent Attention Units for Visual Question Answering Ahmed Osman Wojciech Samek 51 32 0 01 Feb 2018