DocVQA: A Dataset for VQA on Document Images

1 July 2020

Papers citing "DocVQA: A Dataset for VQA on Document Images"

25 / 175 papers shown

Title
ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding Wenjin Wang Zhengjie Huang Bin Luo Qianglong Chen Qiming Peng ... Weichong Yin Shi Feng Yu Sun Dianhai Yu Yin Zhang ViT 37 12 0 18 Sep 2022
ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots Yu-Chung Hsiao Fedir Zubach Maria Wang Jindong Chen Victor Carbune Jason Lin Maria Wang Yun Zhu Jindong Chen RALM 163 26 0 16 Sep 2022
Doc2Graph: a Task Agnostic Document Understanding Framework based on Graph Neural Networks Andrea Gemelli Sanket Biswas Enrico Civitelli Josep Lladós S. Marinai 27 16 0 23 Aug 2022
Towards Complex Document Understanding By Discrete Reasoning Fengbin Zhu Wenqiang Lei Fuli Feng Chao Wang Haozhou Zhang Tat-Seng Chua 33 43 0 25 Jul 2022
Test-Time Adaptation for Visual Document Understanding Sayna Ebrahimi Sercan O. Arik Tomas Pfister OOD 41 6 0 15 Jun 2022
V-Doc : Visual questions answers with Documents Yihao Ding Zhe Huang Runlin Wang Yanhang Zhang Xianru Chen Yuzhong Ma Hyunsuk Chung S. Han 31 15 0 27 May 2022
End-to-end Document Recognition and Understanding with Dessurt Brian L. Davis B. Morse Brian L. Price Chris Tensmeyer Curtis Wigington Vlad I. Morariu VLM ViT 39 73 0 30 Mar 2022
Recent, rapid advancement in visual question answering architecture: a review V. Kodali Daniel Berleant 45 9 0 02 Mar 2022
OCR-IDL: OCR Annotations for Industry Document Library Dataset Ali Furkan Biten Rubèn Pérez Tito Lluís Gómez Ernest Valveny Dimosthenis Karatzas 30 26 0 25 Feb 2022
Recognition-free Question Answering on Handwritten Document Collections Oliver Tüselmann Friedrich Müller Fabian Wolf G. Fink RALM 24 4 0 12 Feb 2022
DocSegTr: An Instance-Level End-to-End Document Image Segmentation Transformer Sanket Biswas Ayan Banerjee Josep Lladós Umapada Pal ViT 28 23 0 27 Jan 2022
LaTr: Layout-Aware Transformer for Scene-Text VQA Ali Furkan Biten Ron Litman Yusheng Xie Srikar Appalaraju R. Manmatha ViT 39 100 0 23 Dec 2021
3D Question Answering Shuquan Ye Dongdong Chen Songfang Han Jing Liao ViT 31 47 0 15 Dec 2021
OCR-free Document Understanding Transformer Geewook Kim Teakgyu Hong Moonbin Yim Jeongyeon Nam Jinyoung Park Jinyeong Yim Wonseok Hwang Sangdoo Yun Dongyoon Han Seunghyun Park ViT 71 264 0 30 Nov 2021
Document AI: Benchmarks, Models and Applications Lei Cui Yiheng Xu Tengchao Lv Furu Wei VLM 29 70 0 16 Nov 2021
ICDAR 2021 Competition on Document VisualQuestion Answering Rubèn Pérez Tito Minesh Mathew C. V. Jawahar Ernest Valveny Dimosthenis Karatzas 43 23 0 10 Nov 2021
DocScanner: Robust Document Image Rectification with Progressive Learning Hao Feng Wen-gang Zhou Jiajun Deng Qi Tian Houqiang Li 36 25 0 28 Oct 2021
MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding Junlong Li Yiheng Xu Lei Cui Furu Wei VLM 3DGS 36 60 0 16 Oct 2021
Asking questions on handwritten document collections Minesh Mathew Lluís Gómez Dimosthenis Karatzas C. V. Jawahar RALM 40 11 0 02 Oct 2021
SelfDoc: Self-Supervised Document Representation Learning Peizhao Li Jiuxiang Gu Jason Kuen Vlad I. Morariu Handong Zhao R. Jain Varun Manjunatha Hongfu Liu ViT SSL 28 160 0 07 Jun 2021
Kleister: Key Information Extraction Datasets Involving Long Documents with Complex Layouts Tomasz Stanislawek Filip Graliñski Anna Wróblewska Dawid Lipiñski Agnieszka Kaliska Paulina Rosalska Bartosz Topolski P. Biecek 49 92 0 12 May 2021
TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text Amanpreet Singh Guan Pang Mandy Toh Jing Huang Wojciech Galuba Tal Hassner 19 165 0 12 May 2021
InfographicVQA Minesh Mathew Viraj Bagal Rubèn Pérez Tito Dimosthenis Karatzas Ernest Valveny C. V. Jawahar 42 209 0 26 Apr 2021
LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding Yiheng Xu Tengchao Lv Lei Cui Guoxin Wang Yijuan Lu D. Florêncio Cha Zhang Furu Wei MLLM VLM 38 128 0 18 Apr 2021
Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer Rafal Powalski Łukasz Borchmann Dawid Jurkiewicz Tomasz Dwojak Michal Pietruszka Gabriela Pałka ViT 38 157 0 18 Feb 2021