Unified Pretraining Framework for Document Understanding

22 April 2022

Jiuxiang Gu

Papers citing "Unified Pretraining Framework for Document Understanding"

50 / 75 papers shown

Title
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models Wenwen Yu Zhibo Yang Jianqiang Wan Sibo Song J. Tang Wenqing Cheng Yunxing Liu Xiang Bai 55 3 0 22 Feb 2025
Handwritten Text Recognition: A Survey Carlos Garrido-Munoz Antonio Ríos-Vila Jorge Calvo-Zaragoza 106 0 0 12 Feb 2025
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations Linke Ouyang Yuan Qu Hongbin Zhou Jiawei Zhu Rui Zhang ... Chao Xu Bo Zhang Botian Shi Zhongying Tu Zeang Sheng 104 5 0 10 Dec 2024
ReLayout: Towards Real-World Document Understanding via Layout-enhanced Pre-training Zhouqiang Jiang Bowen Wang Junhao Chen Yuta Nakashima 30 2 0 14 Oct 2024
Towards an Improved Metric for Evaluating Disentangled Representations Sahib Julka Yashu Wang Michael Granitzer 34 0 0 04 Oct 2024
DAViD: Domain Adaptive Visually-Rich Document Understanding with Synthetic Insights Yihao Ding S. Han Zechuan Li Hyunsuk Chung 28 0 0 02 Oct 2024
DocMamba: Efficient Document Pre-training with State Space Model Pengfei Hu Zhenrong Zhang Jiefeng Ma Shuhang Liu Jun Du Jianshu Zhang Mamba 44 1 0 18 Sep 2024
Deep Learning based Visually Rich Document Content Understanding: A Survey Muhammad Ali Jean Lee Salman Khan 47 6 0 02 Aug 2024
SciPostLayout: A Dataset for Layout Analysis and Layout Generation of Scientific Posters Shohei Tanaka Hao Wang Yoshitaka Ushiku 27 0 0 29 Jul 2024
ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data Yufan Shen Chuwei Luo Zhaoqing Zhu Yang Chen Qi Zheng Zhi Yu Jiajun Bu Cong Yao 48 2 0 17 Jul 2024
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications Jordy Van Landeghem Subhajit Maity Ayan Banerjee Matthew Blaschko Marie-Francine Moens Josep Lladós Sanket Biswas 50 2 0 12 Jun 2024
UnSupDLA: Towards Unsupervised Document Layout Analysis Talha Uddin Sheikh Tahira Shehzadi K. Hashmi Didier Stricker Muhammad Zeshan Afzal 34 2 0 10 Jun 2024
Multimodal Adaptive Inference for Document Image Classification with Anytime Early Exiting Omar Hamed Souhail Bakkali Marie-Francine Moens Matthew Blaschko Jordy Van Landeghem 27 1 0 21 May 2024
DLAFormer: An End-to-End Transformer For Document Layout Analysis Jiawei Wang Kai Hu Qiang Huo 3DV ViT 32 3 0 20 May 2024
GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding Nil Biescas Carlos Boned Riera Josep Lladós Sanket Biswas 42 1 0 06 May 2024
Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism Lei Kang Rubèn Pérez Tito Ernest Valveny Dimosthenis Karatzas 45 5 0 29 Apr 2024
A Hybrid Approach for Document Layout Analysis in Document images Tahira Shehzadi Didier Stricker Muhammad Zeshan Afzal 37 5 0 27 Apr 2024
PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering Yihao Ding Kaixuan Ren Jiabin Huang Siwen Luo S. Han 43 1 0 19 Apr 2024
LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding Chuwei Luo Yufan Shen Zhaoqing Zhu Qi Zheng Zhi Yu Cong Yao 37 40 0 08 Apr 2024
Noise-Aware Training of Layout-Aware Language Models Ritesh Sarkhel Xiaoqi Ren Lauro Beltrao Costa Guolong Su Vincent Perot Yanan Xie Emmanouil Koukoumidis Arnab Nandi VLM 52 0 0 30 Mar 2024
DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering Alex Nguyen Zilong Wang Jingbo Shang Dheeraj Mekala 41 1 0 30 Mar 2024
OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition Jianqiang Wan Sibo Song Wenwen Yu Yuliang Liu Wenqing Cheng Fei Huang Xiang Bai Cong Yao Zhibo Yang 51 28 0 28 Mar 2024
Visually Guided Generative Text-Layout Pre-training for Document Intelligence Zhiming Mao Haoli Bai Lu Hou Jiansheng Wei Xin Jiang Qun Liu Kam-Fai Wong 32 8 0 25 Mar 2024
LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding Masato Fujitake MLLM 27 15 0 21 Mar 2024
Transformers and Language Models in Form Understanding: A Comprehensive Review of Scanned Document Analysis Abdelrahman Abdallah Daniel Eberharter Zoe Pfister Adam Jatowt 40 12 0 06 Mar 2024
TreeForm: End-to-end Annotation and Evaluation for Form Document Parsing Ran Zmigrod Zhiqiang Ma Armineh Nourbakhsh Sameena Shah 24 4 0 07 Feb 2024
Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis Jiawei Wang Kai Hu Zhuoyao Zhong Lei-huan Sun Qiang Huo 35 6 0 22 Jan 2024
PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction Zening Lin Jiapeng Wang Teng Li Wenhui Liao Dayi Huang Longfei Xiong Lianwen Jin 24 2 0 07 Jan 2024
FATURA: A Multi-Layout Invoice Image Dataset for Document Analysis and Understanding Mahmoud Limam M. Dhiaf Yousri Kessentini 23 2 0 20 Nov 2023
On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval Jiayi Chen H. Dai Bo Dai Aidong Zhang Wei Wei 36 2 0 01 Nov 2023
Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents Tofik Ali Partha Pratim Roy 16 0 0 25 Oct 2023
Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning Hao Wang Xiahua Chen Rui-cang Wang Chenhui Chu 27 0 0 23 Oct 2023
DSG: An End-to-End Document Structure Generator Johannes Rausch Gentiana Rashiti Maxim Gusev Ce Zhang Stefan Feuerriegel 31 3 0 13 Oct 2023
Document Understanding for Healthcare Referrals Jimit Mistry N. Arzeno MedIm 18 0 0 22 Sep 2023
SCOB: Universal Text Understanding via Character-wise Supervised Contrastive Learning with Online Text Rendering for Bridging Domain Gap Daehee Kim Yoon Kim Donghyun Kim Yumin Lim Geewook Kim Taeho Kil 34 3 0 21 Sep 2023
Vision Grid Transformer for Document Layout Analysis Cheng Da Chuwei Luo Qi Zheng Cong Yao ViT 42 29 0 29 Aug 2023
Beyond Document Page Classification: Design, Datasets, and Challenges Jordy Van Landeghem Sanket Biswas Matthew B. Blaschko Marie-Francine Moens 40 6 0 24 Aug 2023
A Graphical Approach to Document Layout Analysis Jilin Wang Michael Krumdick Baojia Tong Hamima Halim M. Sokolov Vadym Barda Delphine Vendryes Christy Tanner 24 8 0 03 Aug 2023
RealCQA: Scientific Chart Question Answering as a Test-bed for First-Order Logic Saleem Ahmed Bhavin Jawade Shubham Pandey S. Setlur Venugopal Govindaraju 23 5 0 03 Aug 2023
SpaDen : Sparse and Dense Keypoint Estimation for Real-World Chart Understanding Saleem Ahmed Pengyu Yan David Doermann S. Setlur Venugopal Govindaraju 26 2 0 03 Aug 2023
Bridging the Performance Gap between DETR and R-CNN for Graphical Object Detection in Document Images Tahira Shehzadi K. Hashmi D. Stricker Marcus Liwicki Muhammad Zeshan Afzal 29 7 0 23 Jun 2023
On Evaluation of Document Classification using RVL-CDIP Stefan Larson Gordon Lim Kevin Leach 39 3 0 21 Jun 2023
DocumentNet: Bridging the Data Gap in Document Pre-Training Lijun Yu Jin Miao Xiaoyu Sun Jiayi Chen Alexander G. Hauptmann H. Dai Wei Wei 24 3 0 15 Jun 2023
DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents Fuxiao Liu Hao Tan Chris Tensmeyer CLIP VLM 38 18 0 09 Jun 2023
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models Jiabang He Yilang Hu Lei Wang Xingdong Xu Ning Liu Hui-juan Liu Hengtao Shen VLM OOD 24 2 0 05 Jun 2023
DocFormerv2: Local Features for Document Understanding Srikar Appalaraju Peng Tang Qi Dong Nishant Sankaran Yichu Zhou R. Manmatha 36 39 0 02 Jun 2023
End-to-End Document Classification and Key Information Extraction using Assignment Optimization Ciaran Cooney Joana Cavadas Liam Madigan Bradley Savage Rachel Heyburn Mairead O'Cuinn 11 0 0 01 Jun 2023
DUBLIN -- Document Understanding By Language-Image Network Kriti Aggarwal Aditi Khandelwal Kumar Tanmay Owais Mohammed Khan Qiang Liu Monojit Choudhury Hardik Hansrajbhai Chauhan Subhojit Som Vishrav Chaudhary Saurabh Tiwary ObjD VLM 47 0 0 23 May 2023
Towards Zero-shot Relation Extraction in Web Mining: A Multimodal Approach with Relative XML Path Zilong Wang Jingbo Shang 49 0 0 23 May 2023
Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding Mingliang Zhai Yulin Li Xiameng Qin Chen Yi Qunyi Xie Chengquan Zhang Kun Yao Yuwei Wu Yunde Jia 35 8 0 19 May 2023