Title
Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han ... Qi Liu Chunhui Lin Jingqun Tang Hao Liu Can Huang 7 0 0 20 May 2025
SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation Yuyang Dong Nobuhiro Ueda Krisztián Boros Daiki Ito Takuya Sera Masafumi Oyamada VLM 4 0 0 20 May 2025
ProMind-LLM: Proactive Mental Health Care via Causal Reasoning with Sensor Data Xinzhe Zheng Sijie Ji Jiawei Sun Renqi Chen Wei Gao Mani Srivastava AI4MH LRM 32 0 0 20 May 2025
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning Ke Wang Junting Pan Linda Wei Aojun Zhou Weikang Shi ... Han Xiao Yiran Yang Houxing Ren Mingjie Zhan Hongsheng Li 29 0 0 15 May 2025
DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral Qiang Sun Sirui Li Tingting Bi D. Huynh Mark Reynolds Yuanyi Luo Wei Liu 34 0 0 06 May 2025
SymbioticRAG: Enhancing Document Intelligence Through Human-LLM Symbiotic Collaboration Qiang Sun Tingting Bi Sirui Li E. Holden Paul Duuring Kai Niu Wei Liu 43 0 0 05 May 2025
GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling Siqi Li Yufan Shen Xiangnan Chen Jiayi Chen Hengwei Ju ... Licheng Wen Botian Shi Y. Liu Xinyu Cai Yu Qiao VLM ELM 96 0 0 30 Apr 2025
AutoP2C: An LLM-Based Agent Framework for Code Repository Generation from Multimodal Content in Academic Papers Zijie Lin Yiqing Shen Qilin Cai He Sun Jinrui Zhou Mingjun Xiao 60 0 0 28 Apr 2025
XY-Cut++: Advanced Layout Ordering via Hierarchical Mask Mechanism on a Novel Benchmark Shuai Liu Youmeng Li Jizeng Wei 35 0 0 14 Apr 2025
InteractiveSurvey: An LLM-based Personalized and Interactive Survey Paper Generation System Zhiyuan Wen Jiannong Cao Zian Wang Beichen Guo Ruosong Yang Shuaiqi Liu 41 0 0 31 Mar 2025
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning Zhaowei Liu X. Guo Fangqi Lou Lingfeng Zeng Jinyi Niu ... Sheng Xu Dezhi Chen Yun Chen Zuo Bai Liwen Zhang ReLM AIFin OffRL AI4TS LRM 56 5 0 20 Mar 2025
DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process Minjun Zhu Yixuan Weng Linyi Yang Yue Zhang ALM LRM 68 3 0 11 Mar 2025
SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing Xiangchao Yan Shiyang Feng Jiakang Yuan Renqiu Xia Bin Wang Bo Zhang Junlin Wu 68 2 0 06 Mar 2025
KidneyTalk-open: No-code Deployment of a Private Large Language Model with Medical Documentation-Enhanced Knowledge Database for Kidney Disease Yongchao Long Chao Yang Gongzheng Tang Jinwei Wang Zhun Sui Yuxi Zhou Shenda Hong Luxia Zhang RALM 61 0 0 06 Mar 2025
MCiteBench: A Multimodal Benchmark for Generating Text with Citations Caiyu Hu Yikai Zhang Tinghui Zhu Yiwei Ye Yanghua Xiao 86 0 0 04 Mar 2025
olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models Jake Poznanski Jon Borchardt Jason Dunkelberger Regan Huff Daniel Lin Aman Rangapur Christopher Wilhelm Kyle Lo Luca Soldaini 97 0 0 25 Feb 2025
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning X. Zhang Yuxuan Dong Yunsheng Wu Jiaxing Huang Chengyou Jia Basura Fernando Mike Zheng Shou L. Zhang Jun Liu AIMat ReLM LRM 53 3 0 17 Feb 2025
MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation Qinhan Yu Zhiyou Xiao Binghui Li Zhengren Wang Chong Chen Feiyu Xiong RALM VLM 103 1 0 06 Feb 2025
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training Renqiu Xia Mingxing Li Hancheng Ye Wenjie Wu Hongbin Zhou ... Zeang Sheng Botian Shi Tao Chen Junchi Yan Bo Zhang 91 7 0 16 Dec 2024
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations Linke Ouyang Yuan Qu Hongbin Zhou Jiawei Zhu Rui Zhang ... Chao Xu Bo Zhang Botian Shi Zhongying Tu Zeang Sheng 104 5 0 10 Dec 2024
Chimera: Improving Generalist Model with Domain-Specific Experts Tianshuo Peng Mingxing Li Hongbin Zhou Renqiu Xia Renrui Zhang ... Aojun Zhou Botian Shi Tao Chen Bo Zhang Xiangyu Yue 90 4 0 08 Dec 2024
DOGE: Towards Versatile Visual Document Grounding and Referring Yinan Zhou Yuxin Chen Haokun Lin Shuyu Yang Li Zhu Zhongang Qi Chen Ma Ying Shan ObjD 86 2 0 26 Nov 2024
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception Zhiyuan Zhao Hengrui Kang Bin Wang Zeang Sheng 35 11 0 16 Oct 2024
Docling Technical Report Christoph Auer Maksym Lysak Ahmed Nassar Michele Dolfi Nikolaos Livathinos ... Valéry Weber Lucas Morin Ingmar Meijer Viktor Kuropiatnyk Peter W. J. Staar LMTD 32 7 0 19 Aug 2024