CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

20 December 2016

Justin Johnson

B. Hariharan

Laurens van der Maaten

Li Fei-Fei

Papers citing "CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning"

50 / 1,475 papers shown

Title
Learning to Generate Synthetic 3D Training Data through Hybrid Gradient Dawei Yang Jia Deng 3DH 19 5 0 29 Jun 2019
RUBi: Reducing Unimodal Biases in Visual Question Answering Rémi Cadène Corentin Dancette H. Ben-younes Matthieu Cord Devi Parikh CML 19 369 0 24 Jun 2019
Integrating Knowledge and Reasoning in Image Understanding Somak Aditya Yezhou Yang Chitta Baral OCL 39 40 0 24 Jun 2019
Adversarial Regularization for Visual Question Answering: Strengths, Shortcomings, and Side Effects Gabriel Grand Yonatan Belinkov 27 68 0 20 Jun 2019
Expressing Visual Relationships via Language Hao Tan Franck Dernoncourt Zhe Lin Trung Bui Joey Tianyi Zhou 29 63 0 18 Jun 2019
Language as an Abstraction for Hierarchical Deep Reinforcement Learning Yiding Jiang S. Gu Kevin Patrick Murphy Chelsea Finn OffRL 20 223 0 18 Jun 2019
Deep Set Prediction Networks Yan Zhang Jonathon S. Hare Adam Prugel-Bennett 22 108 0 15 Jun 2019
SPoC: Search-based Pseudocode to Code Sumith Kulal Panupong Pasupat Kartik Chandra Mina Lee Oded Padon A. Aiken Percy Liang 20 213 0 12 Jun 2019
Psycholinguistics meets Continual Learning: Measuring Catastrophic Forgetting in Visual Question Answering Claudio Greco Barbara Plank Raquel Fernández Raffaella Bernardi CLL KELM 25 49 0 10 Jun 2019
A Survey of Reinforcement Learning Informed by Natural Language Jelena Luketina Nantas Nardelli Gregory Farquhar Jakob N. Foerster Jacob Andreas Edward Grefenstette Shimon Whiteson Tim Rocktaschel LM&Ro KELM OffRL LRM 31 279 0 10 Jun 2019
Joint Visual Grounding with Language Scene Graphs Daqing Liu Hanwang Zhang Zhengjun Zha Meng Wang Qianru Sun 33 6 0 09 Jun 2019
Towards Interpretable Reinforcement Learning Using Attention Augmented Agents Alex Mott Daniel Zoran Mike Chrzanowski Daan Wierstra Danilo Jimenez Rezende 26 188 0 06 Jun 2019
ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering Zhou Yu D. Xu Jun-chen Yu Ting Yu Zhou Zhao Yueting Zhuang Dacheng Tao 24 440 0 06 Jun 2019
Learning to Compose and Reason with Language Tree Structures for Visual Grounding Richang Hong Daqing Liu Xiaoyu Mo Xiangnan He Hanwang Zhang ReLM LRM 24 158 0 05 Jun 2019
Transcoding compositionally: using attention to find more generalizable solutions K. Korrel Dieuwke Hupkes Verna Dankers Elia Bruni 30 31 0 04 Jun 2019
Kandinsky Patterns Heimo Mueller Andreas Holzinger 16 31 0 03 Jun 2019
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge Kenneth Marino Mohammad Rastegari Ali Farhadi Roozbeh Mottaghi 19 1,020 0 31 May 2019
Scene Text Visual Question Answering Ali Furkan Biten Rubèn Pérez Tito Andrés Mafla Lluís Gómez Marçal Rusiñol Ernest Valveny C. V. Jawahar Dimosthenis Karatzas 41 343 0 31 May 2019
What Can Neural Networks Reason About? Keyulu Xu Jingling Li Mozhi Zhang S. Du Ken-ichi Kawarabayashi Stefanie Jegelka NAI AI4CE 27 240 0 30 May 2019
Blocksworld Revisited: Learning and Reasoning to Generate Event-Sequences from Image Pairs Tejas Gokhale Shailaja Keyur Sampat Zhiyuan Fang Yezhou Yang Chitta Baral OCL 14 5 0 28 May 2019
Learning Dynamics of Attention: Human Prior for Interpretable Machine Reasoning Wonjae Kim Yoonho Lee 16 6 0 28 May 2019
Structure Learning for Neural Module Networks Vardaan Pahuja Jie Fu Sarath Chandar C. Pal 21 7 0 27 May 2019
Object Discovery with a Copy-Pasting GAN Relja Arandjelović Andrew Zisserman 27 57 0 27 May 2019
Sequential mastery of multiple visual tasks: Networks naturally learn to learn and forget to forget Guy Davidson Michael C. Mozer CLL 26 23 0 26 May 2019
An Explicitly Relational Neural Network Architecture Murray Shanahan Kyriacos Nikiforou Antonia Creswell Christos Kaplanis David Barrett M. Garnelo NAI 3DV GAN 25 68 0 24 May 2019
AttentionRNN: A Structured Spatial Attention Mechanism Siddhesh Khandelwal Leonid Sigal 27 3 0 22 May 2019
The Algonauts Project: A Platform for Communication between the Sciences of Biological and Artificial Intelligence Radoslaw Martin Cichy Gemma Roig A. Andonian Kshitij Dwivedi B. Lahner A. Lascelles Y. Mohsenzadeh K. Ramakrishnan A. Oliva 23 44 0 14 May 2019
Quantifying and Alleviating the Language Prior Problem in Visual Question Answering Yangyang Guo Zhiyong Cheng Liqiang Nie Yebin Liu Yinglong Wang Mohan Kankanhalli 22 36 0 13 May 2019
Language-Conditioned Graph Networks for Relational Reasoning Ronghang Hu Anna Rohrbach Trevor Darrell Kate Saenko 31 171 0 10 May 2019
Learning from Implicit Information in Natural Language Instructions for Robotic Manipulations Ozan Arkan Can Pedro Zuidberg Dos Martires A. Persson Julian Gaal Amy Loutfi Luc de Raedt Deniz Yuret A. Saffiotti LM&Ro 29 4 0 30 Apr 2019
The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision Jiayuan Mao Chuang Gan Pushmeet Kohli J. Tenenbaum Jiajun Wu NAI 19 686 0 26 Apr 2019
Tripping through time: Efficient Localization of Activities in Videos Meera Hahn Asim Kadav James M. Rehg H. Graf 28 86 0 22 Apr 2019
Compositional generalization in a deep seq2seq model by separating syntax and semantics Jacob Russin Jason Jo R. C. O'Reilly Yoshua Bengio 30 102 0 22 Apr 2019
Challenges and Prospects in Vision and Language Research Kushal Kafle Robik Shrestha Christopher Kanan 24 41 0 19 Apr 2019
Towards VQA Models That Can Read Amanpreet Singh Vivek Natarajan Meet Shah Yu Jiang Xinlei Chen Dhruv Batra Devi Parikh Marcus Rohrbach EgoV 15 1,136 0 18 Apr 2019
Learning to Collocate Neural Modules for Image Captioning Xu Yang Hanwang Zhang Jianfei Cai 27 77 0 18 Apr 2019
Question Guided Modular Routing Networks for Visual Question Answering Yanze Wu Qiang Sun Jianqi Ma Bin Li Yanwei Fu Yao Peng Xiangyang Xue 23 1 0 17 Apr 2019
Unsupervised Discovery of Multimodal Links in Multi-image, Multi-sentence Documents Jack Hessel Lillian Lee David M. Mimno 31 30 0 16 Apr 2019
SIMCO: SIMilarity-based object COunting Marco Godi Christian Joppi Andrea Giachetti Marco Cristani 3DPC 24 0 0 15 Apr 2019
Evaluating the Representational Hub of Language and Vision Models Ravi Shekhar Ece Takmaz Raquel Fernández Raffaella Bernardi 30 11 0 12 Apr 2019
Factor Graph Attention Idan Schwartz Seunghak Yu Tamir Hazan Alex Schwing 30 110 0 11 Apr 2019
A Simple Baseline for Audio-Visual Scene-Aware Dialog Idan Schwartz Alex Schwing Tamir Hazan 27 69 0 11 Apr 2019
Reasoning Visual Dialogs with Structural and Partial Observations Zilong Zheng Wenguan Wang Siyuan Qi Song-Chun Zhu 39 117 0 11 Apr 2019
On zero-shot recognition of generic objects T. Hascoet Y. Ariki T. Takiguchi VLM 18 13 0 10 Apr 2019
Multi-Target Embodied Question Answering Licheng Yu Xinlei Chen Georgia Gkioxari Joey Tianyi Zhou Tamara L. Berg Dhruv Batra 21 103 0 09 Apr 2019
VQD: Visual Query Detection in Natural Scenes Manoj Acharya Karan Jariwala Christopher Kanan ObjD 24 18 0 04 Apr 2019
Revisiting Visual Grounding E. Conser Kennedy Hahn Chandler M. Watson Melanie Mitchell 14 5 0 03 Apr 2019
Analysing Mathematical Reasoning Abilities of Neural Models D. Saxton Edward Grefenstette Felix Hill Pushmeet Kohli LRM 39 418 0 02 Apr 2019
Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches Shane Storks Qiaozi Gao J. Chai 23 128 0 02 Apr 2019
Constructing Hierarchical Q&A Datasets for Video Story Understanding Y. Heo Kyoung-Woon On Seong-Ho Choi Jaeseo Lim Jinah Kim Jeh-Kwang Ryu Byung-Chull Bae Byoung-Tak Zhang 23 5 0 01 Apr 2019