Title
DocLLM: A layout-aware generative language model for multimodal document understanding Dongsheng Wang Natraj Raman Mathieu Sibue Zhiqiang Ma Petr Babkin Simerjot Kaur Yulong Pei Armineh Nourbakhsh Xiaomo Liu VLM 75 60 0 31 Dec 2023
Unifying Vision, Text, and Layout for Universal Document Processing Zineng Tang Ziyi Yang Guoxin Wang Yuwei Fang Yang Liu Chenguang Zhu Michael Zeng Chao-Yue Zhang Joey Tianyi Zhou VLM 86 112 0 05 Dec 2022
ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding Qiming Peng Yinxu Pan Wenjin Wang Bin Luo Zhenyu Zhang ... Shi Feng Yu Sun Hao Tian Hua Wu Haifeng Wang 64 83 0 12 Oct 2022
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang Tengchao Lv Lei Cui Yutong Lu Furu Wei 92 454 0 18 Apr 2022
End-to-end Document Recognition and Understanding with Dessurt Brian L. Davis B. Morse Brian L. Price Chris Tensmeyer Curtis Wigington Vlad I. Morariu VLM ViT 90 73 0 30 Mar 2022
BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents Teakgyu Hong Donghyun Kim Mingi Ji Wonseok Hwang Daehyun Nam Sungrae Park VLM 73 153 0 10 Aug 2021
DocFormer: End-to-End Transformer for Document Understanding Srikar Appalaraju Bhavan A. Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha ViT 88 279 0 22 Jun 2021
ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for Key Information Extraction from Documents Weihong Lin Qifang Gao Lei-huan Sun Zhuoyao Zhong Kaiqin Hu Qin Ren Qiang Huo 65 39 0 25 May 2021
StructuralLM: Structural Pre-training for Form Understanding Chenliang Li Bin Bi Ming Yan Wei Wang Songfang Huang Fei Huang Luo Si LMTD AI4CE 81 134 0 24 May 2021
Kleister: Key Information Extraction Datasets Involving Long Documents with Complex Layouts Tomasz Stanislawek Filip Graliñski Anna Wróblewska Dawid Lipiñski Agnieszka Kaliska Paulina Rosalska Bartosz Topolski P. Biecek 73 95 0 12 May 2021
ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction Zheng Huang Kai Chen Jianhua He X. Bai Dimosthenis Karatzas Shijian Lu C. V. Jawahar 52 315 0 18 Mar 2021
Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer Rafal Powalski Łukasz Borchmann Dawid Jurkiewicz Tomasz Dwojak Michal Pietruszka Gabriela Pałka ViT 66 157 0 18 Feb 2021
Revising FUNSD dataset for key-value detection in document images Hieu M. Vu Diep Thi Ngoc Nguyen 33 8 0 11 Oct 2020
DocVQA: A Dataset for VQA on Document Images Minesh Mathew Dimosthenis Karatzas C. V. Jawahar 142 739 0 01 Jul 2020
LayoutLM: Pre-training of Text and Layout for Document Image Understanding Yiheng Xu Minghao Li Lei Cui Shaohan Huang Furu Wei Ming Zhou 135 707 0 31 Dec 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 665 24,464 0 26 Jul 2019
FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents Guillaume Jaume H. K. Ekenel Jean-Philippe Thiran 168 369 0 27 May 2019
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering Zhilin Yang Peng Qi Saizheng Zhang Yoshua Bengio William W. Cohen Ruslan Salakhutdinov Christopher D. Manning RALM 182 2,655 0 25 Sep 2018
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension Mandar Joshi Eunsol Choi Daniel S. Weld Luke Zettlemoyer RALM 210 2,676 0 09 May 2017
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 289 8,160 0 16 Jun 2016
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 211 5,478 0 03 May 2015