Title
Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding Takamitsu Omasa Ryo Koshihara Masumi Morishige 21 0 0 09 May 2025
OmniCaptioner: One Captioner to Rule Them All Yiting Lu Jiakang Yuan Zhen Li Jike Zhong Qi Qin ... Lei Bai Zhibo Chen Peng Gao Bo Zhang Peng Gao MLLM 81 0 0 09 Apr 2025
Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning Zhihan Zhang Yixin Cao Lizi Liao 28 0 0 03 Apr 2025
RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning Alexander Vogel Omar Moured Yufan Chen Jiaming Zhang Rainer Stiefelhagen 37 0 0 29 Mar 2025
DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts Ling Zhong Yujing Lu Jing Yang Weiming Li Peng Wei Yongheng Wang Manni Duan Qing Zhang 47 0 0 25 Mar 2025
On the Perception Bottleneck of VLMs for Chart Understanding Junteng Liu Weihao Zeng Xiwen Zhang Yijun Wang Zifei Shan Junxian He 60 0 0 24 Mar 2025
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering Zixin Chen Sicheng Song Kashun Shum Yanna Lin Rui Sheng Huamin Qu 62 2 0 23 Mar 2025
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion A. Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos ... Yusik Kim A. Said Gurbuz Michele Dolfi Miquel Farré Peter W. J. Staar 58 3 0 14 Mar 2025
SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing Xiangchao Yan Shiyang Feng Jiakang Yuan Renqiu Xia Bin Wang Bo Zhang Junlin Wu 60 2 0 06 Mar 2025
Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts Xiangnan Chen Yuancheng Fang Qian Xiao Juncheng Billy Li J. Lin Siliang Tang Yi Yang Yueting Zhuang 70 0 0 06 Mar 2025
Multimodal Large Language Models for Text-rich Image Understanding: A Comprehensive Review Pei Fu Tongkun Guan Zining Wang Zhentao Guo Chen Duan ... Boming Chen Jiayao Ma Qianyi Jiang Kai Zhou Junfeng Luo VLM 62 0 0 23 Feb 2025
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation Yuqing Yang Ajay Patel Matt Deitke Tanmay Gupta Luca Weihs ... Mark Yatskar Chris Callison-Burch Ranjay Krishna Aniruddha Kembhavi Christopher Clark SyDa 78 2 0 21 Feb 2025
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding Ahmed Heakl Abdullah Sohail Mukul Ranjan Rania Hossam Ghazi Ahmed Mohamed El-Geish Omar Maher Zhiqiang Shen Fahad A Khan Salman Khan VLM 47 1 0 20 Feb 2025
AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs Hongxin Li Jingfan Chen Jingran Su Yuntao Chen Qing Li Zhaoxiang Zhang 156 0 0 04 Feb 2025
Al-Khwarizmi: Discovering Physical Laws with Foundation Models Christopher E. Mower Haitham Bou-Ammar AI4CE 76 1 0 03 Feb 2025
ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation Xuanle Zhao Xianzhen Luo Qi Shi Cheng Chen Shuo Wang Wanxiang Che Zhiyuan Liu Maosong Sun MLLM 54 2 0 11 Jan 2025
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training Renqiu Xia M. Li Hancheng Ye Wenjie Wu Hongbin Zhou ... Conghui He Botian Shi Tao Chen Junchi Yan Bo Zhang 91 7 0 16 Dec 2024
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations Linke Ouyang Yuan Qu Hongbin Zhou Jiawei Zhu Rui Zhang ... Chao Xu Bo Zhang Botian Shi Zhongying Tu Conghui He 101 5 0 10 Dec 2024
Chimera: Improving Generalist Model with Domain-Specific Experts Tianshuo Peng M. Li Hongbin Zhou Renqiu Xia Renrui Zhang ... Aojun Zhou Botian Shi Tao Chen Bo Zhang Xiangyu Yue 88 4 0 08 Dec 2024
Understanding Graphical Perception in Data Visualization through Zero-shot Prompting of Vision-Language Models Grace Guo Jenna Jiayi Kang Raj Sanjay Shah Hanspeter Pfister Sashank Varma VLM 38 4 0 31 Oct 2024
Distill Visual Chart Reasoning Ability from LLMs to MLLMs Wei He Zhiheng Xi Wanxu Zhao Xiaoran Fan Yiwen Ding Zifei Shan Tao Gui Qi Zhang Xuanjing Huang LRM 51 5 0 24 Oct 2024
MultiChartQA: Benchmarking Vision-Language Models on Multi-Chart Problems Zifeng Zhu Mengzhao Jia Z. Zhang Lang Li Meng Jiang LRM 37 3 0 18 Oct 2024
The Visualization JUDGE : Can Multimodal Foundation Models Guide Visualization Design Through Visual Perception? Matthew Berger Shusen Liu 31 1 0 05 Oct 2024
Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback Fatemeh Pesaran Zadeh Juyeon Kim Jin-Hwa Kim Gunhee Kim ALM 48 1 0 05 Oct 2024
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model Haoran Wei Chenglong Liu Jinyue Chen Jia Wang Lingyu Kong ... Liang Zhao Jianjian Sun Yuang Peng Chunrui Han Xiangyu Zhang VLM 46 41 0 03 Sep 2024
EvoChart: A Benchmark and a Self-Training Approach Towards Real-World Chart Understanding Muye Huang Han Lai Xinyu Zhang Wenjun Wu Jie Ma Lingling Zhang Jun Liu 39 4 0 03 Sep 2024
A Survey on Evaluation of Multimodal Large Language Models Jiaxing Huang Jingyi Zhang LM&MA ELM LRM 50 20 0 28 Aug 2024
On Pre-training of Multimodal Language Models Customized for Chart Understanding Wan-Cyuan Fan Yen-Chun Chen Mengchen Liu Lu Yuan Leonid Sigal 45 5 0 19 Jul 2024
Unraveling the Truth: Do LLMs really Understand Charts? A Deep Dive into Consistency and Robustness Srija Mukhopadhyay Adnan Qidwai Aparna Garimella Pritika Ramu Vivek Gupta Dan Roth 54 1 0 15 Jul 2024
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective Zhen Qin Daoyuan Chen Wenhao Zhang Liuyi Yao Yilun Huang Bolin Ding Yaliang Li Shuiguang Deng 57 5 0 11 Jul 2024
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model Wenqi Zhang Zhenglin Cheng Yuanyu He Mengna Wang Yongliang Shen ... Guiyang Hou Mingqian He Yanna Ma Weiming Lu Yueting Zhuang SyDa 71 9 0 09 Jul 2024
FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts Shubhankar Singh Purvi Chaurasia Yerram Varun Pranshu Pandya Vatsal Gupta Vivek Gupta Dan Roth 28 4 0 27 Jun 2024
DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models Renqiu Xia Song Mao Xiangchao Yan Hongbin Zhou Bo Zhang ... Yongwei Wang Bin Wang Junchi Yan Fei Wu Yu Qiao 48 10 0 17 Jun 2024
ChartFormer: A Large Vision Language Model for Converting Chart Images into Tactile Accessible SVGs Omar Moured Sara Alzalabny Anas Osman Thorsten Schwarz Karin Muller Rainer Stiefelhagen 36 1 0 29 May 2024
TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning Liang Zhang Anwen Hu Haiyang Xu Mingshi Yan Yichen Xu Qin Jin Ji Zhang Fei Huang 51 15 0 25 Apr 2024
OneChart: Purify the Chart Structural Extraction via One Auxiliary Token Jinyue Chen Lingyu Kong Haoran Wei Chenglong Liu Zheng Ge Liang Zhao Jian‐Yuan Sun Chunrui Han Xiangyu Zhang 46 22 0 15 Apr 2024
mChartQA: A universal benchmark for multimodal Chart Question Answer based on Vision-Language Alignment and Reasoning Jingxuan Wei Nan Xu Guiyong Chang Yin Luo Bihui Yu Ruifeng Guo 44 2 0 02 Apr 2024
From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models Kung-Hsiang Huang Hou Pong Chan Yi Ren Fung Haoyi Qiu Mingyang Zhou Shafiq R. Joty Shih-Fu Chang Heng Ji AI4TS 64 18 0 18 Mar 2024
ChartBench: A Benchmark for Complex Visual Reasoning in Charts Zhengzhuo Xu Sinan Du Yiyan Qi Chengjin Xu Chun Yuan Jian Guo 35 34 0 26 Dec 2023
mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model Anwen Hu Yaya Shi Haiyang Xu Jiabo Ye Qinghao Ye Mingshi Yan Chenliang Li Qi Qian Ji Zhang Fei Huang MLLM 36 25 0 30 Nov 2023
ChartGPT: Leveraging LLMs to Generate Charts from Abstract Natural Language Yuan Tian Weiwei Cui Dazhen Deng Xinjing Yi Yurun Yang Haidong Zhang Yingcai Wu 43 57 0 03 Nov 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 298 3,007 0 22 Mar 2023
Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs Albert Q. Jiang Sean Welleck Jin Peng Zhou Wenda Li Jiacheng Liu M. Jamnik Timothée Lacroix Yuhuai Wu Guillaume Lample AIMat 70 158 0 21 Oct 2022
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 163 263 0 07 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022