WordScape: a Pipeline to extract multilingual, visually rich Documents with Layout Annotations from Web Crawl Data

15 December 2023

Papers citing "WordScape: a Pipeline to extract multilingual, visually rich Documents with Layout Annotations from Web Crawl Data"

6 / 6 papers shown

Title
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion A. Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos ... Yusik Kim A. Said Gurbuz Michele Dolfi Miquel Farré Peter W. J. Staar 58 3 0 14 Mar 2025
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance Qingpei Guo Kaiyou Song Zipeng Feng Ziping Ma Qinglong Zhang ... Yunxiao Sun Tai-WeiChang Jingdong Chen Ming Yang Jun Zhou MLLM VLM 87 3 0 26 Feb 2025
SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding Chuanghao Ding Xuejing Liu Wei Tang Juan Li Xiaoliang Wang Rui Zhao Cam-Tu Nguyen Fei Tan 23 0 0 27 Aug 2024
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 253 1,989 0 31 Dec 2020
FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents Guillaume Jaume H. K. Ekenel Jean-Philippe Thiran 134 355 0 27 May 2019
You Only Look Once: Unified, Real-Time Object Detection Joseph Redmon S. Divvala Ross B. Girshick Ali Farhadi ObjD 292 36,335 0 08 Jun 2015