Asking questions on handwritten document collections

2 October 2021

Papers citing "Asking questions on handwritten document collections"

33 / 33 papers shown

Title
Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping Weili Zeng Ziyuan Huang Kaixiang Ji Yichao Yan VLM 158 1 0 26 Mar 2025
DrawEduMath: Evaluating Vision Language Models with Expert-Annotated Students' Hand-Drawn Math Images Sami Baral L. Lucy Ryan Knight Alice Ng Luca Soldaini Neil T. Heffernan Kyle Lo 92 4 0 28 Jan 2025
Document Visual Question Answering Challenge 2020 Minesh Mathew Rubèn Pérez Tito Dimosthenis Karatzas R. Manmatha C. V. Jawahar 40 15 0 20 Aug 2020
DocVQA: A Dataset for VQA on Document Images Minesh Mathew Dimosthenis Karatzas C. V. Jawahar 116 709 0 01 Jul 2020
Pay Attention to What You Read: Non-recurrent Handwritten Text-Line Recognition Lei Kang Pau Riba Marccal Rusinol Alicia Fornés M. Villegas 53 127 0 26 May 2020
On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering Xinyu Wang Yuliang Liu Chunhua Shen Chun Chet Ng Canjie Luo Lianwen Jin C. Chan Anton Van Den Hengel Liangwei Wang 81 97 0 24 Feb 2020
LayoutLM: Pre-training of Text and Layout for Document Image Understanding Yiheng Xu Minghao Li Lei Cui Shaohan Huang Furu Wei Ming Zhou 124 701 0 31 Dec 2019
Scene Text Visual Question Answering Ali Furkan Biten Rubèn Pérez Tito Andrés Mafla Lluís Gómez Marçal Rusiñol Ernest Valveny C. V. Jawahar Dimosthenis Karatzas 82 355 0 31 May 2019
FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents Guillaume Jaume H. K. Ekenel Jean-Philippe Thiran 156 366 0 27 May 2019
Towards VQA Models That Can Read Amanpreet Singh Vivek Natarajan Meet Shah Yu Jiang Xinlei Chen Dhruv Batra Devi Parikh Marcus Rohrbach EgoV 69 1,210 0 18 Apr 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.4K 94,511 0 11 Oct 2018
VizWiz Grand Challenge: Answering Visual Questions from Blind People Danna Gurari Qing Li Abigale Stangl Anhong Guo Chi Lin Kristen Grauman Jiebo Luo Jeffrey P. Bigham CoGe 80 844 0 22 Feb 2018
DVQA: Understanding Data Visualizations via Question Answering Kushal Kafle Brian L. Price Scott D. Cohen Christopher Kanan AIMat 66 387 0 24 Jan 2018
Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering Aishwarya Agrawal Dhruv Batra Devi Parikh Aniruddha Kembhavi OOD 136 585 0 01 Dec 2017
FigureQA: An Annotated Figure Dataset for Visual Reasoning Samira Ebrahimi Kahou Vincent Michalski Adam Atkinson Ákos Kádár Adam Trischler Yoshua Bengio ReLM AIMat 55 322 0 19 Oct 2017
Reading Wikipedia to Answer Open-Domain Questions Danqi Chen Adam Fisch Jason Weston Antoine Bordes RALM 108 2,007 0 31 Mar 2017
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Li Fei-Fei C. L. Zitnick Ross B. Girshick CoGe 285 2,367 0 20 Dec 2016
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 320 3,224 0 02 Dec 2016
NewsQA: A Machine Comprehension Dataset Adam Trischler Tong Wang Xingdi Yuan Justin Harris Alessandro Sordoni Philip Bachman Kaheer Suleman 82 893 0 29 Nov 2016
MS MARCO: A Human Generated MAchine Reading COmprehension Dataset Payal Bajaj Daniel Fernando Campos Nick Craswell Li Deng Jianfeng Gao ... Mir Rosenberg Xia Song Alina Stoica Saurabh Tiwary Tong Wang RALM 133 2,721 0 28 Nov 2016
ReasoNet: Learning to Stop Reading in Machine Comprehension Yelong Shen Po-Sen Huang Jianfeng Gao Weizhu Chen LRM 52 306 0 17 Sep 2016
Machine Comprehension Using Match-LSTM and Answer Pointer Shuohang Wang Jing Jiang 73 594 0 29 Aug 2016
Generating Synthetic Data for Text Recognition Praveen Krishnan C. V. Jawahar 49 56 0 15 Aug 2016
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 225 8,113 0 16 Jun 2016
PHOCNet: A Deep Convolutional Neural Network for Word Spotting in Handwritten Documents Sebastian Sudholt G. Fink SSeg 36 226 0 01 Apr 2016
Where To Look: Focus Regions for Visual Question Answering Kevin J. Shih Saurabh Singh Derek Hoiem 68 458 0 23 Nov 2015
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition Baoguang Shi X. Bai Cong Yao VLM 181 2,484 0 21 Jul 2015
Teaching Machines to Read and Comprehend Karl Moritz Hermann Tomás Kociský Edward Grefenstette L. Espeholt W. Kay Mustafa Suleyman Phil Blunsom 315 3,538 0 10 Jun 2015
Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering Haoyuan Gao Junhua Mao Jie Zhou Zhiheng Huang Lei Wang Wenyuan Xu 78 498 0 21 May 2015
Exploring Models and Data for Image Question Answering Mengye Ren Ryan Kiros R. Zemel 80 715 0 08 May 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 166 5,452 0 03 May 2015
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 203 2,469 0 01 Apr 2015
Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition Max Jaderberg Karen Simonyan Andrea Vedaldi Andrew Zisserman 122 935 0 09 Jun 2014