v1v2 (latest)

CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions

3 January 2019

Papers citing "CLEVR-Ref+: Diagnosing Visual Reasoning with Referring Expressions"

38 / 38 papers shown

Title
Referring to Any Person Qing Jiang Lin Wu Zhaoyang Zeng Tianhe Ren Yuda Xiong Yihao Chen Qin Liu Lei Zhang 477 2 0 11 Mar 2025
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 270 5 0 31 Dec 2024
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension Junzhuo Liu Xiaohu Yang Weiwei Li Peng Wang ObjD 126 5 0 23 Sep 2024
VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models Zejun Li Ruipu Luo Jiwen Zhang Minghui Qiu Zhongyu Wei Zhongyu Wei LRM MLLM 160 17 0 27 May 2024
Explainable Neural Computation via Stack Neural Module Networks Ronghang Hu Jacob Andreas Trevor Darrell Kate Saenko LRM OCL 90 199 0 23 Jul 2018
Dynamic Multimodal Instance Segmentation guided by natural language queries Edgar Margffoy-Tuay Juan C. Pérez Emilio Botero Pablo Arbelaez 71 176 0 06 Jul 2018
Visual Referring Expression Recognition: What Do Systems Actually Learn? Volkan Cirik Louis-Philippe Morency Taylor Berg-Kirkpatrick 79 63 0 30 May 2018
Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning David Mascharka Philip Tran Ryan Soklaski Arjun Majumdar 119 207 0 14 Mar 2018
Compositional Attention Networks for Machine Reasoning Drew A. Hudson Christopher D. Manning BDL OOD LRM 196 577 0 08 Mar 2018
MAttNet: Modular Attention Network for Referring Expression Comprehension Licheng Yu Zhe Lin Xiaohui Shen Jimei Yang Xin Lu Joey Tianyi Zhou Tamara L. Berg ObjD 117 831 0 24 Jan 2018
Learning by Asking Questions Ishan Misra Ross B. Girshick Rob Fergus M. Hebert Abhinav Gupta Laurens van der Maaten 71 84 0 04 Dec 2017
FiLM: Visual Reasoning with a General Conditioning Layer Ethan Perez Florian Strub H. D. Vries Vincent Dumoulin Aaron Courville FAtt AIMat OffRL AI4CE 372 2,236 0 22 Sep 2017
A simple neural network module for relational reasoning Adam Santoro David Raposo David Barrett Mateusz Malinowski Razvan Pascanu Peter W. Battaglia Timothy Lillicrap GNN NAI 189 1,615 0 05 Jun 2017
Inferring and Executing Programs for Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Judy Hoffman Li Fei-Fei C. L. Zitnick Ross B. Girshick NAI 99 545 0 10 May 2017
Learning to Reason: End-to-End Module Networks for Visual Question Answering Ronghang Hu Jacob Andreas Marcus Rohrbach Trevor Darrell Kate Saenko KELM GNN ReLM LRM 131 579 0 18 Apr 2017
Recurrent Multimodal Interaction for Referring Image Segmentation Chenxi Liu Zhe Lin Xiaohui Shen Jimei Yang Xin Lu Alan Yuille EgoV 83 240 0 23 Mar 2017
Comprehension-guided referring expressions Ruotian Luo Gregory Shakhnarovich ObjD 107 171 0 12 Jan 2017
A Joint Speaker-Listener-Reinforcer Model for Referring Expressions Licheng Yu Hao Tan Joey Tianyi Zhou Tamara L. Berg ObjD 94 275 0 30 Dec 2016
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Li Fei-Fei C. L. Zitnick Ross B. Girshick CoGe 319 2,391 0 20 Dec 2016
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 355 3,273 0 02 Dec 2016
Modeling Relationships in Referential Expressions with Compositional Modular Networks Ronghang Hu Marcus Rohrbach Jacob Andreas Trevor Darrell Kate Saenko 82 406 0 30 Nov 2016
Modeling Context in Referring Expressions Licheng Yu Patrick Poirson Shan Yang Alexander C. Berg Tamara L. Berg 133 1,277 0 31 Jul 2016
Question Relevance in VQA: Identifying Non-Visual And False-Premise Questions Arijit Ray Gordon A. Christie Joey Tianyi Zhou Dhruv Batra Devi Parikh 73 56 0 21 Jun 2016
Attention Correctness in Neural Image Captioning Chenxi Liu Junhua Mao Fei Sha Alan Yuille 3DV 85 220 0 31 May 2016
Segmentation from Natural Language Expressions Ronghang Hu Marcus Rohrbach Trevor Darrell VLM EgoV 81 438 0 20 Mar 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.3K 194,510 0 10 Dec 2015
Yin and Yang: Balancing and Answering Binary Visual Questions Peng Zhang Yash Goyal D. Summers-Stay Dhruv Batra Devi Parikh CoGe 92 352 0 16 Nov 2015
Natural Language Object Retrieval Ronghang Hu Huazhe Xu Marcus Rohrbach Jiashi Feng Kate Saenko Trevor Darrell ObjD 106 554 0 13 Nov 2015
Grounding of Textual Phrases in Images by Reconstruction Anna Rohrbach Marcus Rohrbach Ronghang Hu Trevor Darrell Bernt Schiele 82 497 0 12 Nov 2015
Visual7W: Grounded Question Answering in Images Yuke Zhu Oliver Groth Michael S. Bernstein Li Fei-Fei 106 887 0 11 Nov 2015
Neural Module Networks Jacob Andreas Marcus Rohrbach Trevor Darrell Dan Klein CoGe 139 1,077 0 09 Nov 2015
Generation and Comprehension of Unambiguous Object Descriptions Junhua Mao Jonathan Huang Alexander Toshev Oana-Maria Camburu Alan Yuille Kevin Patrick Murphy ObjD 138 1,359 0 07 Nov 2015
Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering Haoyuan Gao Junhua Mao Jie Zhou Zhiheng Huang Lei Wang Wenyuan Xu 86 501 0 21 May 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 235 5,509 0 03 May 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 2.1K 150,364 0 22 Dec 2014
Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN) Junhua Mao Wenyuan Xu Yi Yang Jiang Wang Zhiheng Huang Alan Yuille VLM 190 1,240 0 20 Dec 2014
Deep Visual-Semantic Alignments for Generating Image Descriptions A. Karpathy Li Fei-Fei 152 5,595 0 07 Dec 2014
Long-term Recurrent Convolutional Networks for Visual Recognition and Description Jeff Donahue Lisa Anne Hendricks Marcus Rohrbach Subhashini Venugopalan S. Guadarrama Kate Saenko Trevor Darrell VLM 173 6,057 0 17 Nov 2014