v1v2v3 (latest)

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

18 April 2022

Papers citing "LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking"

50 / 277 papers shown

Title
DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming Jiaxin Zhang Wentao Yang Songxuan Lai Zecheng Xie Lianwen Jin 100 21 0 27 Jun 2024
ColPali: Efficient Document Retrieval with Vision Language Models Manuel Faysse Hugues Sibille Tony Wu Bilel Omrani Gautier Viaud C´eline Hudelot Pierre Colombo VLM 381 29 0 27 Jun 2024
DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation Ahmad Mohammadshirazi Ali Nosrati Firoozsalari Mengxi Zhou Dheeraj Kulshrestha R. Ramnath 91 0 0 25 Jun 2024
DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models Renqiu Xia Song Mao Xiangchao Yan Hongbin Zhou Bo Zhang ... Yongwei Wang Bin Wang Junchi Yan Fei Wu Yu Qiao 109 12 0 17 Jun 2024
M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation Benjamin Hsu Xiaoyu Liu Huayang Li Yoshinari Fujinuma Maria Nadejde Xing Niu Yair Kittenplon Ron Litman R. Pappagari 83 4 0 12 Jun 2024
DistilDoc: Knowledge Distillation for Visually-Rich Document Applications Jordy Van Landeghem Subhajit Maity Ayan Banerjee Matthew Blaschko Marie-Francine Moens Josep Lladós Sanket Biswas 138 2 0 12 Jun 2024
UnSupDLA: Towards Unsupervised Document Layout Analysis Talha Uddin Sheikh Tahira Shehzadi K. Hashmi Didier Stricker Muhammad Zeshan Afzal 81 2 0 10 Jun 2024
Reconstructing training data from document understanding models Jérémie Dentan Arnaud Paran A. Shabou AAML SyDa 80 1 0 05 Jun 2024
StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond Pengyuan Lyu Yulin Li Hao Zhou Weihong Ma Xingyu Wan ... Liang Wu Chengquan Zhang Kun Yao Errui Ding Jingdong Wang 76 7 0 31 May 2024
Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use Franz Louis Cesista Rui Aguiar Jason Kim Paolo Acilo 58 3 0 30 May 2024
MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series Ge Zhang Scott Qu Jiaheng Liu Chenchen Zhang Chenghua Lin ... Zi-Kai Zhao Jiajun Zhang Wanli Ouyang Wenhao Huang Wenhu Chen ELM 124 46 0 29 May 2024
XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser Xianfu Cheng Hang Zhang Jian Yang Xiang Li Weixiao Zhou ... Fei Liu Wei Zhang Tao Sun Tongliang Li Zhoujun Li 105 3 0 27 May 2024
Multimodal Adaptive Inference for Document Image Classification with Anytime Early Exiting Omar Hamed Souhail Bakkali Marie-Francine Moens Matthew Blaschko Jordy Van Landeghem 81 2 0 21 May 2024
DLAFormer: An End-to-End Transformer For Document Layout Analysis Jiawei Wang Kai Hu Qiang Huo 3DV ViT 75 3 0 20 May 2024
Federated Document Visual Question Answering: A Pilot Study Khanh Nguyen Dimosthenis Karatzas FedML 84 0 0 10 May 2024
GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding Nil Biescas Carlos Boned Riera Josep Lladós Sanket Biswas 72 1 0 06 May 2024
KVP10k : A Comprehensive Dataset for Key-Value Pair Extraction in Business Documents O. Naparstek Roi Pony Inbar Shapira Foad Abo Dahood Ophir Azulai ... Idan Friedman Orit Prince Yevgeny Burshtein Adi Raz Goldfarb Udi Barzelay 64 3 0 01 May 2024
CREPE: Coordinate-Aware End-to-End Document Parser Yamato Okamoto Youngmin Baek Geewook Kim Ryota Nakao Donghyun Kim Moonbin Yim Seunghyun Park Bado Lee 88 1 0 01 May 2024
Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism Lei Kang Rubèn Pérez Tito Ernest Valveny Dimosthenis Karatzas 69 5 0 29 Apr 2024
Improve Academic Query Resolution through BERT-based Question Extraction from Images Nidhi Kamal Saurabh Yadav Jorawar Singh Aditi Avasthi 56 0 0 28 Apr 2024
A Hybrid Approach for Document Layout Analysis in Document images Tahira Shehzadi Didier Stricker Muhammad Zeshan Afzal 72 5 0 27 Apr 2024
MoVA: Adapting Mixture of Vision Experts to Multimodal Context Zhuofan Zong Bingqi Ma Dazhong Shen Guanglu Song Hao Shao Dongzhi Jiang Hongsheng Li Yu Liu MoE 108 51 0 19 Apr 2024
PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering Yihao Ding Kaixuan Ren Jiabin Huang Siwen Luo S. Han 86 1 0 19 Apr 2024
A LayoutLMv3-Based Model for Enhanced Relation Extraction in Visually-Rich Documents Wiam Adnan Joel Tang Yassine Bel Khayat Zouggari S. Laatiri Laurent Lam Fabien Caspani 71 1 0 16 Apr 2024
Towards Efficient Resume Understanding: A Multi-Granularity Multi-Modal Pre-Training Approach Feihu Jiang Chuan Qin Jingshuai Zhang Kaichun Yao Xi Chen Dazhong Shen Chen Zhu Hengshu Zhu Hui Xiong 63 8 0 13 Apr 2024
Enhancing Mobile "How-to" Queries with Automated Search Results Verification and Reranking Lei Ding Jeshwanth Bheemanpally Yi Zhang 88 1 0 13 Apr 2024
HRVDA: High-Resolution Visual Document Assistant Chaohu Liu Kun Yin Haoyu Cao Xinghua Jiang Xin Li Yinsong Liu Deqiang Jiang Xing Sun Linli Xu VLM 102 26 0 10 Apr 2024
LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding Chuwei Luo Yufan Shen Zhaoqing Zhu Qi Zheng Zhi Yu Cong Yao 119 49 0 08 Apr 2024
BuDDIE: A Business Document Dataset for Multi-task Information Extraction Ran Zmigrod Dongsheng Wang Mathieu Sibue Yulong Pei Petr Babkin ... Antony Papadimitriou William Watson Zhiqiang Ma Armineh Nourbakhsh Sameena Shah 66 5 0 05 Apr 2024
DOCMASTER: A Unified Platform for Annotation, Training, & Inference in Document Question-Answering Alex Nguyen Zilong Wang Jingbo Shang Dheeraj Mekala 84 1 0 30 Mar 2024
RealKIE: Five Novel Datasets for Enterprise Key Information Extraction Benjamin Townsend Madison May Christopher Wells SyDa 97 0 0 29 Mar 2024
OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition Jianqiang Wan Sibo Song Wenwen Yu Yuliang Liu Wenqing Cheng Fei Huang Xiang Bai Cong Yao Zhibo Yang 99 37 0 28 Mar 2024
Can AI Models Appreciate Document Aesthetics? An Exploration of Legibility and Layout Quality in Relation to Prediction Confidence Hsiu-Wei Yang Abhinav Agrawal Pavlos Fragkogiannis Shubham Nitin Mulay 88 1 0 27 Mar 2024
m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt Jian Yang Hongcheng Guo Yuwei Yin Jiaqi Bai Bing Wang Jiaheng Liu Xinnian Liang Linzheng Cahi Liqun Yang Zhoujun Li 71 10 0 26 Mar 2024
Visually Guided Generative Text-Layout Pre-training for Document Intelligence Zhiming Mao Haoli Bai Lu Hou Jiansheng Wei Xin Jiang Qun Liu Kam-Fai Wong 80 10 0 25 Mar 2024
Towards Human-Like Machine Comprehension: Few-Shot Relational Learning in Visually-Rich Documents Hao Wang Tang Li Chenhui Chu Nengjun Zhu Rui Wang Pinpin Zhu 43 0 0 23 Mar 2024
RoDLA: Benchmarking the Robustness of Document Layout Analysis Models Yufan Chen Jiaming Zhang Kunyu Peng Junwei Zheng Ruiping Liu Philip Torr Rainer Stiefelhagen OOD 73 7 0 21 Mar 2024
LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding Masato Fujitake MLLM 62 15 0 21 Mar 2024
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding Anwen Hu Haiyang Xu Jiabo Ye Mingshi Yan Liang Zhang ... Chen Li Ji Zhang Qin Jin Fei Huang Jingren Zhou VLM 117 125 0 19 Mar 2024
Tur[k]ingBench: A Challenge Benchmark for Web Agents Kevin Xu Yeganeh Kordi Kate Sanders Yizhong Wang Adam Byerly Kate Sanders Adam Byerly Jingyu Zhang Benjamin Van Durme Daniel Khashabi LLMAG 127 9 0 18 Mar 2024
Adversarial Training with OCR Modality Perturbation for Scene-Text Visual Question Answering Zhixuan Shen Haonan Luo Sijia Li Tianrui Li 70 0 0 14 Mar 2024
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document Yuliang Liu Biao Yang Qiang Liu Zhang Li Zhiyin Ma Shuo Zhang Xiang Bai MLLM VLM 123 109 0 07 Mar 2024
LOCR: Location-Guided Transformer for Optical Character Recognition Yu Sun Dongzhan Zhou Chen Lin Conghui He Wanli Ouyang Han-Sen Zhong 99 1 0 04 Mar 2024
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models Xin Li Yunfei Wu Xinghua Jiang Zhihao Guo Ming Gong Haoyu Cao Yinsong Liu Deqiang Jiang Xing Sun VLM 109 18 0 29 Feb 2024
Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding Hongshen Xu Lu Chen Zihan Zhao Da Ma Ruisheng Cao Zichen Zhu Kai Yu 62 2 0 28 Feb 2024
Improving Language Understanding from Screenshots Tianyu Gao Zirui Wang Adithya Bhaskar Danqi Chen VLM 82 10 0 21 Feb 2024
GraphKD: Exploring Knowledge Distillation Towards Document Object Detection with Structured Graph Creation Ayan Banerjee Sanket Biswas Josep Lladós Umapada Pal 125 2 0 17 Feb 2024
LAPDoc: Layout-Aware Prompting for Documents Marcel Lamott Yves-Noel Weweler A. Ulges Faisal Shafait Dirk Krechel Darko Obradovic 118 6 0 15 Feb 2024
ScreenAI: A Vision-Language Model for UI and Infographics Understanding Gilles Baechler Srinivas Sunkara Maria Wang Fedir Zubach Hassan Mansoor Vincent Etter Victor Carbune Jason Lin Jindong Chen Abhanshu Sharma 197 59 0 07 Feb 2024
ANLS* -- A Universal Document Processing Metric for Generative Large Language Models David Peer Philemon Schöpf V. Nebendahl A. Rietzler Sebastian Stabinger 86 3 0 06 Feb 2024