ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for Key Information Extraction from Documents

25 May 2021

Papers citing "ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for Key Information Extraction from Documents"

30 / 30 papers shown

Title
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis Jiawei Wang Kai Hu Qiang Huo 58 0 0 20 Mar 2025
ViBERTgrid BiLSTM-CRF: Multimodal Key Information Extraction from Unstructured Financial Documents Furkan Pala Mehmet Yasin Akpınar Onur Deniz Gülşen Eryiğit 27 0 0 23 Sep 2024
XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser Xianfu Cheng Hang Zhang Jian Yang Xiang Li Weixiao Zhou ... Fei Liu Wei Zhang Tao Sun Tongliang Li Zhoujun Li 52 2 0 27 May 2024
BuDDIE: A Business Document Dataset for Multi-task Information Extraction Ran Zmigrod Dongsheng Wang Mathieu Sibue Yulong Pei Petr Babkin ... Antony Papadimitriou William Watson Zhiqiang Ma Armineh Nourbakhsh Sameena Shah 27 4 0 05 Apr 2024
Towards Human-Like Machine Comprehension: Few-Shot Relational Learning in Visually-Rich Documents Hao Wang Tang Li Chenhui Chu Nengjun Zhu Rui-cang Wang Pinpin Zhu 25 0 0 23 Mar 2024
The future of document indexing: GPT and Donut revolutionize table of content processing Degaga Wolde Feyisa Haylemicheal Berihun Amanuel Zewdu Mahsa Najimoghadam Marzieh Zare 29 0 0 12 Mar 2024
UniVIE: A Unified Label Space Approach to Visual Information Extraction from Form-like Documents Kai Hu Jiawei Wang Weihong Lin Zhuoyao Zhong Lei-huan Sun Qiang Huo 40 1 0 17 Jan 2024
Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning Hao Wang Xiahua Chen Rui-cang Wang Chenhui Chu 27 0 0 23 Oct 2023
PrIeD-KIE: Towards Privacy Preserved Document Key Information Extraction S. Saifullah S. Agne Andreas Dengel Sheraz Ahmed 16 0 0 05 Oct 2023
Comprehensive Overview of Named Entity Recognition: Models, Domain-Specific Applications and Challenges Kalyani Pakhale 23 21 0 25 Sep 2023
Improving Information Extraction on Business Documents with Specific Pre-Training Tasks Thibault Douzon S. Duffner Christophe Garcia Jérémy Espinas 15 6 0 11 Sep 2023
Vision Grid Transformer for Document Layout Analysis Cheng Da Chuwei Luo Qi Zheng Cong Yao ViT 40 27 0 29 Aug 2023
Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering Wenjin Wang Yunhao Li Yixin Ou Yin Zhang VLM 21 24 0 01 Jun 2023
Language Independent Neuro-Symbolic Semantic Parsing for Form Understanding Bhanu Prakash Voutharoja Lizhen Qu Fatemeh Shiri 30 1 0 08 May 2023
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction Nils Loose Chun-Liang Li Hao Zhang Timothy Dozat Felix Mächtle ... Shangbang Long Siyang Qin Yasuhisa Fujii Nan Hua T. Eisenbarth SSL 48 17 0 04 May 2023
Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents via Semantic-Oriented Hierarchical Graphs Fengbin Zhu Chao Wang Fuli Feng Zifeng Ren Moxin Li Tat-Seng Chua 44 3 0 03 May 2023
GeoLayoutLM: Geometric Pre-training for Visual Information Extraction Chuwei Luo Changxu Cheng Qi Zheng Cong Yao 24 43 0 21 Apr 2023
A Question-Answering Approach to Key Value Pair Extraction from Form-like Document Images Kai Hu Zhuoyuan Wu Zhuoyao Zhong Weihong Lin Lei-huan Sun Qiang Huo 26 10 0 17 Apr 2023
StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training Yu Yu Yulin Li Chengquan Zhang Xiaoqiang Zhang Zengyuan Guo Xiameng Qin Kun Yao Junyu Han Errui Ding Jingdong Wang 13 45 0 01 Mar 2023
DocILE Benchmark for Document Information Localization and Extraction vStvepán vSimsa Milan vSulc Michal Uvrivcávr Yash J. Patel Ahmed Hamdi ... Matyávs Skalický Jivrí Matas Antoine Doucet Mickael Coustaty Dimosthenis Karatzas 24 33 0 11 Feb 2023
DocILE 2023 Teaser: Document Information Localization and Extraction vStvepán vSimsa Milan vSulc Matyávs Skalický Yash J. Patel Ahmed Hamdi 31 2 0 29 Jan 2023
Multimodal Tree Decoder for Table of Contents Extraction in Document Images Pengfei Hu Zhenrong Zhang Jianshu Zhang Jun Du Jiajia Wu 25 12 0 06 Dec 2022
ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding Wenjin Wang Zhengjie Huang Bin Luo Qianglong Chen Qiming Peng ... Weichong Yin Shi Feng Yu Sun Dianhai Yu Yin Zhang ViT 30 11 0 18 Sep 2022
Flexible Vertical Federated Learning with Heterogeneous Parties Timothy Castiglia Shiqiang Wang S. Patterson FedML 34 34 0 26 Aug 2022
Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding Chuwei Luo Guozhi Tang Qi Zheng Cong Yao Lianwen Jin Chenliang Li Yang Xue Luo Si 19 16 0 27 Jun 2022
Multimodal Pre-training Based on Graph Attention Network for Document Understanding Zhenrong Zhang Jiefeng Ma Jun Du Licheng Wang Jianshu Zhang 16 37 0 25 Mar 2022
LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding Jiapeng Wang Lianwen Jin Kai Ding VLM 30 138 0 28 Feb 2022
Document AI: Benchmarks, Models and Applications Lei Cui Yiheng Xu Tengchao Lv Furu Wei VLM 24 69 0 16 Nov 2021
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding Yang Xu Yiheng Xu Tengchao Lv Lei Cui Furu Wei ... D. Florêncio Cha Zhang Wanxiang Che Min Zhang Lidong Zhou ViT MLLM 153 498 0 29 Dec 2020
Bag of Tricks for Image Classification with Convolutional Neural Networks Tong He Zhi-Li Zhang Hang Zhang Zhongyue Zhang Junyuan Xie Mu Li 221 1,399 0 04 Dec 2018