ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for
Key Information Extraction from Documents

ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for Key Information Extraction from Documents

25 May 2021

Papers citing "ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for Key Information Extraction from Documents"

10 / 10 papers shown

Title
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis Jiawei Wang Kai Hu Qiang Huo 55 0 0 20 Mar 2025
Language Independent Neuro-Symbolic Semantic Parsing for Form Understanding Bhanu Prakash Voutharoja Lizhen Qu Fatemeh Shiri 27 1 0 08 May 2023
A Question-Answering Approach to Key Value Pair Extraction from Form-like Document Images Kai Hu Zhuoyuan Wu Zhuoyao Zhong Weihong Lin Lei-huan Sun Qiang Huo 26 10 0 17 Apr 2023
Multimodal Tree Decoder for Table of Contents Extraction in Document Images Pengfei Hu Zhenrong Zhang Jianshu Zhang Jun Du Jiajia Wu 25 12 0 06 Dec 2022
ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding Wenjin Wang Zhengjie Huang Bin Luo Qianglong Chen Qiming Peng ... Weichong Yin Shi Feng Yu Sun Dianhai Yu Yin Zhang ViT 30 11 0 18 Sep 2022
Flexible Vertical Federated Learning with Heterogeneous Parties Timothy Castiglia Shiqiang Wang S. Patterson FedML 31 34 0 26 Aug 2022
LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding Jiapeng Wang Lianwen Jin Kai Ding VLM 30 138 0 28 Feb 2022
Document AI: Benchmarks, Models and Applications Lei Cui Yiheng Xu Tengchao Lv Furu Wei VLM 21 69 0 16 Nov 2021
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding Yang Xu Yiheng Xu Tengchao Lv Lei Cui Furu Wei ... D. Florêncio Cha Zhang Wanxiang Che Min Zhang Lidong Zhou ViT MLLM 153 498 0 29 Dec 2020
Bag of Tricks for Image Classification with Convolutional Neural Networks Tong He Zhi-Li Zhang Hang Zhang Zhongyue Zhang Junyuan Xie Mu Li 221 1,399 0 04 Dec 2018