ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction

18 March 2021

Papers citing "ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction"

50 / 186 papers shown

Title
Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning Jinghui Lu Haiyang Yu Siliang Xu Shiwei Ran Guozhi Tang ... Teng Fu Hao Feng Jingqun Tang Han Wang Can Huang LRM 22 0 0 21 May 2025
Information Extraction from Visually Rich Documents using LLM-based Organization of Documents into Independent Textual Segments Aniket Bhattacharyya Anurag Tripathi Ujjal Das Archan Karmakar Amit Pathak Maneesh Gupta 17 0 0 18 May 2025
Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization Kesen Zhao B. Zhu Qianru Sun Hanwang Zhang MLLM LRM 86 0 0 25 Apr 2025
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models Jinguo Zhu Weiyun Wang Zhe Chen Ziwei Liu Shenglong Ye ... Dahua Lin Yu Qiao Jifeng Dai Wenhai Wang Wei Wang MLLM VLM 72 22 1 14 Apr 2025
Relation-Rich Visual Document Generator for Visual Information Extraction Zi-Han Jiang Chien-Wei Lin Wei-Hua Li Hsuan-Tung Liu Yi-Ren Yeh Chu-Song Chen 35 0 0 14 Apr 2025
Data Metabolism: An Efficient Data Design Schema For Vision Language Model Jingyuan Zhang Hongzhi Zhang Zhou Haonan Chenxi Sun Xingguang Ji Jiakang Wang Fanheng Kong Yong-Jin Liu Qi Wang Fuzheng Zhang VLM 68 1 0 10 Apr 2025
Capybara-OMNI: An Efficient Paradigm for Building Omni-Modal Language Models Xingguang Ji Jiakang Wang Hongzhi Zhang Jingyuan Zhang Haonan Zhou Chenxi Sun Yong-Jin Liu Qi Wang Fuzheng Zhang MLLM VLM 75 0 0 10 Apr 2025
VISTA-OCR: Towards generative and interactive end to end OCR models Laziz Hamdi Amine Tamasna Pascal Boisson Thierry Paquet 49 0 0 04 Apr 2025
Improving Applicability of Deep Learning based Token Classification models during Training Anket Mehra Malte Prieß Marian Himstedt 51 0 0 28 Mar 2025
BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction Jan Kohút Martin Dočekal Michal Hradiš Marek Vaško 39 0 0 25 Mar 2025
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding Mingze Xu Mingfei Gao Shiyu Li Jiasen Lu Zhe Gan Zhengfeng Lai Meng Cao Kai Kang Yue Yang Afshin Dehghan 74 2 0 24 Mar 2025
Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction Mengsay Loem Taiju Hosaka 37 0 0 21 Mar 2025
Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding Zining Wang Tongkun Guan Pei Fu Chen Duan Qianyi Jiang Zhentao Guo Shan Guo Junfeng Luo Wei Shen Xiaokang Yang MLLM VLM 71 1 0 18 Mar 2025
An Efficient Deep Learning-Based Approach to Automating Invoice Document Validation Aziz Amari Mariem Makni Wissal Fnaich Akram Lahmar Fedi Koubaa Oumayma Charrad Mohamed Ali Zormati Rabaa Youssef Douss 45 0 0 15 Mar 2025
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning Weiyun Wang Zhangwei Gao L. Chen Zhe Chen Jinguo Zhu ... Lewei Lu Haodong Duan Yu Qiao Jifeng Dai Wenhai Wang LRM 73 12 0 13 Mar 2025
VisRL: Intention-Driven Visual Perception via Reinforced Reasoning Zhangquan Chen Xufang Luo Dongsheng Li OffRL LRM 75 3 0 10 Mar 2025
Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription Benjamin Gutteridge Matthew Thomas Jackson Toni Kukurin Xiaowen Dong 36 0 0 27 Feb 2025
Towards Statistical Factuality Guarantee for Large Vision-Language Models Zechao Li Chao Yan Nicholas J. Jackson Wendi Cui B. Li Jiaxin Zhang Bradley Malin 76 0 0 27 Feb 2025
LiGT: Layout-infused Generative Transformer for Visual Question Answering on Vietnamese Receipts Thanh-Phong Le Trung Le Chi Phan Nghia Hieu Nguyen Kiet Van Nguyen ViT 54 0 0 26 Feb 2025
Multimodal Large Language Models for Text-rich Image Understanding: A Comprehensive Review Pei Fu Tongkun Guan Zining Wang Zhentao Guo Chen Duan ... Boming Chen Jiayao Ma Qianyi Jiang Kai Zhou Junfeng Luo VLM 69 0 0 23 Feb 2025
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models Wenwen Yu Zhibo Yang Jianqiang Wan Sibo Song J. Tang Wenqing Cheng Yunxing Liu Xiang Bai 58 3 0 22 Feb 2025
SAIL: Sample-Centric In-Context Learning for Document Information Extraction Jinyu Zhang Zhiyuan You Jize Wang Xinyi Le 82 1 0 22 Dec 2024
A High-Quality Text-Rich Image Instruction Tuning Dataset via Hybrid Instruction Generation Shijie Zhou Ruiyi Zhang Yufan Zhou Changyou Chen VLM 77 1 0 20 Dec 2024
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding Chenxin Tao Shiqian Su X. Zhu Chenyu Zhang Zhe Chen ... Wenhai Wang Lewei Lu Gao Huang Yu Qiao Jifeng Dai MLLM VLM 115 2 0 20 Dec 2024
Training LayoutLM from Scratch for Efficient Named-Entity Recognition in the Insurance Domain Benno Uthayasooriyar A. Ly Franck Vermet Caio Corro 76 0 0 12 Dec 2024
DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness Ahmad Mohammadshirazi Pinaki Prasad Guha Neogi Ser-Nam Lim R. Ramnath 76 1 0 29 Nov 2024
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding Qing Jiang Gen Luo Yuqin Yang Yuda Xiong Yihao Chen Zhaoyang Zeng Tianhe Ren Lei Zhang VLM LRM 109 7 0 27 Nov 2024
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization Weiyun Wang Zhe Chen Wenhai Wang Yue Cao Yangzhou Liu ... Jinguo Zhu X. Zhu Lewei Lu Yu Qiao Jifeng Dai LRM 76 50 1 15 Nov 2024
HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction Rujiao Long Pengfei Wang Zhibo Yang Cong Yao 49 0 0 02 Nov 2024
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding Fengbin Zhu Ziyang Liu Xiang Yao Ng Haohui Wu Wenjie Wang Fuli Feng Chao Wang Huanbo Luan Tat-Seng Chua VLM 43 3 0 25 Oct 2024
"What is the value of {templates}?" Rethinking Document Information Extraction Datasets for LLMs Ran Zmigrod Pranav Shetty Mathieu Sibue Zhiqiang Ma Armineh Nourbakhsh Xiaomo Liu Manuela Veloso 28 0 0 20 Oct 2024
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training Gen Luo Xue Yang Wenhan Dou Zhaokai Wang Jifeng Dai Jifeng Dai Yu Qiao Xizhou Zhu VLM MLLM 73 26 0 10 Oct 2024
GraphRevisedIE: Multimodal Information Extraction with Graph-Revised Network Panfeng Cao Jian Wu 32 9 0 02 Oct 2024
Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding Chong Zhang Yi Tu Yixi Zhao Chenshu Yuan Huan Chen ... Mingxu Chai Ya Guo Huijia Zhu Qi Zhang Tao Gui 43 2 0 29 Sep 2024
See then Tell: Enhancing Key Information Extraction with Vision Grounding Shuhang Liu Zhenrong Zhang Pengfei Hu Jiefeng Ma Jun Du Qing Wang Jianshu Zhang Chenyu Liu 28 0 0 29 Sep 2024
CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials Alexander Naumann Felix Hertlein Jacqueline Höllig Lucas Cazzonelli Steffen Thoma 31 0 0 27 Sep 2024
ViBERTgrid BiLSTM-CRF: Multimodal Key Information Extraction from Unstructured Financial Documents Furkan Pala Mehmet Yasin Akpınar Onur Deniz Gülşen Eryiğit 27 0 0 23 Sep 2024
DocMamba: Efficient Document Pre-training with State Space Model Pengfei Hu Zhenrong Zhang Jiefeng Ma Shuhang Liu Jun Du Jianshu Zhang Mamba 47 1 0 18 Sep 2024
NVLM: Open Frontier-Class Multimodal LLMs Wenliang Dai Nayeon Lee Wei Ping Zhuoling Yang Zihan Liu Jon Barker Tuomas Rintamaki Mohammad Shoeybi Bryan Catanzaro Ming-Yu Liu MLLM VLM LRM 53 55 0 17 Sep 2024
Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5 Marcel Lamott Muhammad Armaghan Shakir 38 0 0 17 Sep 2024
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding Yonghui Wang Wengang Zhou Hao Feng Houqiang Li VLM 35 0 0 30 Aug 2024
DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding Wenhui Liao Jiapeng Wang Hongliang Li Chengyu Wang Jun Huang Lianwen Jin 51 0 0 27 Aug 2024
Image-to-LaTeX Converter for Mathematical Formulas and Text Daniil Gurgurov Aleksey Morshnev ViT VLM 63 1 0 07 Aug 2024
Deep Learning based Visually Rich Document Content Understanding: A Survey Muhammad Ali Jean Lee Salman Khan 52 6 0 02 Aug 2024
UNER: A Unified Prediction Head for Named Entity Recognition in Visually-rich Documents Yi Tu Chong Zhang Ya Guo Huan Chen Jinyang Tang Huijia Zhu Qi Zhang 51 3 0 02 Aug 2024
OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation Zilong Wang Yuedong Cui Li Zhong Zimin Zhang Da Yin Bill Yuchen Lin Jingbo Shang 64 4 0 26 Jul 2024
Learning Instance-Specific Parameters of Black-Box Models Using Differentiable Surrogates Arnisha Khondaker Nilanjan Ray 31 0 0 23 Jul 2024
Semantic GUI Scene Learning and Video Alignment for Detecting Duplicate Video-based Bug Reports Yanfu Yan Nathan Cooper Oscar Chaparro Kevin Moran Denys Poshyvanyk 49 5 0 11 Jul 2024
Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation Filipe Lauar Valentin Laurent 37 0 0 09 Jul 2024
MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis Lei Chen Feng Yan Yujie Zhong Shaoxiang Chen Zequn Jie Lin Ma 51 3 0 03 Jul 2024