v1v2 (latest)

Towards VQA Models That Can Read

18 April 2019

Amanpreet Singh

Devi Parikh

Papers citing "Towards VQA Models That Can Read"

38 / 138 papers shown

Title
Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering Zhou Yu Xuecheng Ouyang Zhenwei Shao Mei Wang Jun Yu MLLM 160 11 0 03 Mar 2023
ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots Yu-Chung Hsiao Fedir Zubach Maria Wang Jindong Chen Victor Carbune Jason Lin Maria Wang Yun Zhu Jindong Chen RALM 184 28 0 16 Sep 2022
Rosetta: Large scale system for text detection and recognition in images Fedor Borisyuk Albert Gordo V. Sivakumar 78 299 0 11 Oct 2019
Pythia v0.1: the Winning Entry to the VQA Challenge 2018 Yu Jiang Vivek Natarajan Xinlei Chen Marcus Rohrbach Dhruv Batra Devi Parikh VLM 61 203 0 26 Jul 2018
Bilinear Attention Networks Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang AIMat 87 876 0 21 May 2018
VizWiz Grand Challenge: Answering Visual Questions from Blind People Danna Gurari Qing Li Abigale Stangl Anhong Guo Chi Lin Kristen Grauman Jiebo Luo Jeffrey P. Bigham CoGe 97 858 0 22 Feb 2018
Learning to Count Objects in Natural Images for Visual Question Answering Yan Zhang Jonathon S. Hare Adam Prugel-Bennett OOD 68 207 0 15 Feb 2018
DVQA: Understanding Data Visualizations via Question Answering Kushal Kafle Brian L. Price Scott D. Cohen Christopher Kanan AIMat 77 396 0 24 Jan 2018
FigureQA: An Annotated Figure Dataset for Visual Reasoning Samira Ebrahimi Kahou Vincent Michalski Adam Atkinson Ákos Kádár Adam Trischler Yoshua Bengio ReLM AIMat 57 330 0 19 Oct 2017
Beyond Bilinear: Generalized Multimodal Factorized High-order Pooling for Visual Question Answering Zhou Yu Jun-chen Yu Chenchao Xiang Jianping Fan Dacheng Tao 61 460 0 10 Aug 2017
MemexQA: Visual Memex Question Answering Lu Jiang Junwei Liang Liangliang Cao Yannis Kalantidis S. Farfade Alexander G. Hauptmann 38 28 0 04 Aug 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 121 4,220 0 25 Jul 2017
Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour Priya Goyal Piotr Dollár Ross B. Girshick P. Noordhuis Lukasz Wesolowski Aapo Kyrola Andrew Tulloch Yangqing Jia Kaiming He 3DH 128 3,685 0 08 Jun 2017
Get To The Point: Summarization with Pointer-Generator Networks A. See Peter J. Liu Christopher D. Manning 3DPC 301 4,019 0 14 Apr 2017
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Li Fei-Fei C. L. Zitnick Ross B. Girshick CoGe 307 2,386 0 20 Dec 2016
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 345 3,270 0 02 Dec 2016
Dynamic Coattention Networks For Question Answering Caiming Xiong Victor Zhong R. Socher AIMat 84 684 0 05 Nov 2016
Pointer Sentinel Mixture Models Stephen Merity Caiming Xiong James Bradbury R. Socher RALM 328 2,876 0 26 Sep 2016
Bag of Tricks for Efficient Text Classification Armand Joulin Edouard Grave Piotr Bojanowski Tomas Mikolov VLM 177 4,630 0 06 Jul 2016
FVQA: Fact-based Visual Question Answering Peng Wang Qi Wu Chunhua Shen Anton van den Hengel A. Dick CoGe 77 462 0 17 Jun 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 305 1,465 0 06 Jun 2016
Adversarial Feature Learning Jiasen Lu Philipp Krahenbuhl Trevor Darrell GAN 113 1,611 0 31 May 2016
Pointing the Unknown Words Çağlar Gülçehre Sungjin Ahn Ramesh Nallapati Bowen Zhou Yoshua Bengio 55 525 0 26 Mar 2016
A Diagram Is Worth A Dozen Images Aniruddha Kembhavi M. Salvato Eric Kolve Minjoon Seo Hannaneh Hajishirzi Ali Farhadi 3DV 76 486 0 24 Mar 2016
Incorporating Copying Mechanism in Sequence-to-Sequence Learning Jiatao Gu Zhengdong Lu Hang Li Victor O.K. Li 206 1,539 0 21 Mar 2016
Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Ranjay Krishna Yuke Zhu Oliver Groth Justin Johnson Kenji Hata ... Yannis Kalantidis Li Li David A. Shamma Michael S. Bernstein Fei-Fei Li 220 5,761 0 23 Feb 2016
Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond Ramesh Nallapati Bowen Zhou Cicero Nogueira dos Santos Çağlar Gülçehre Bing Xiang AIMat 270 2,564 0 19 Feb 2016
COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images Andreas Veit Tomas Matera Lukás Neumann Jirí Matas Serge J. Belongie 277 528 0 26 Jan 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.2K 194,322 0 10 Dec 2015
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering Huijuan Xu Kate Saenko 76 763 0 17 Nov 2015
Visual7W: Grounded Question Answering in Images Yuke Zhu Oliver Groth Michael S. Bernstein Li Fei-Fei 94 887 0 11 Nov 2015
Neural Module Networks Jacob Andreas Marcus Rohrbach Trevor Darrell Dan Klein CoGe 139 1,076 0 09 Nov 2015
Stacked Attention Networks for Image Question Answering Zichao Yang Xiaodong He Jianfeng Gao Li Deng Alex Smola BDL 109 1,883 0 07 Nov 2015
Exploring Models and Data for Image Question Answering Mengye Ren Ryan Kiros R. Zemel 80 718 0 08 May 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 211 5,497 0 03 May 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 1.9K 150,260 0 22 Dec 2014
A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input Mateusz Malinowski Mario Fritz 212 698 0 01 Oct 2014
Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau Kyunghyun Cho Yoshua Bengio AIMat 573 27,325 0 01 Sep 2014