Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning

16 August 2024

Papers citing "Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning"

21 / 21 papers shown

Title
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning Ke Wang Junting Pan Linda Wei Aojun Zhou Weikang Shi ... Han Xiao Yiran Yang Houxing Ren Mingjie Zhan Hongsheng Li 29 0 0 15 May 2025
Manipulating Multimodal Agents via Cross-Modal Prompt Injection Le Wang Zonghao Ying Tianyuan Zhang Siyuan Liang Shengshan Hu Mingchuan Zhang A. Liu Xianglong Liu AAML 33 1 0 19 Apr 2025
Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration Yicheng Pan Zhenrong Zhang Pengfei Hu Jiefeng Ma Jun Du Jianshu Zhang Quan Liu J. Gao Feng Ma LRM 38 0 0 17 Apr 2025
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models Hardy Chen Haoqin Tu Fali Wang Hui Liu Xianfeng Tang Xinya Du Yuyin Zhou Cihang Xie ReLM VLM OffRL LRM 71 8 0 10 Apr 2025
Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation J. S. Park J. Park Dongju Jang Jiwan Chung Byungwoo Yoo Jaewoo Shin S. Park Taehyeong Kim Youngjae Yu 46 0 0 04 Apr 2025
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems Felix Chen Hangjie Yuan Yunqiu Xu Tao Feng Jun Cen Pengwei Liu Zeying Huang Yi Yang LRM 50 1 0 19 Mar 2025
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning Hai-Long Sun Zhun Sun Houwen Peng Han-Jia Ye LRM 50 0 0 17 Mar 2025
Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach Afrar Jahin Arif Hassan Zidan Wei Zhang Yu Bao Tianming Liu LRM 76 1 0 13 Mar 2025
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models Wenxuan Huang Bohan Jia Zijie Zhai Shaosheng Cao Zheyu Ye Fei Zhao Zhe Xu Yao Hu Shaohui Lin MU OffRL LRM MLLM ReLM VLM 59 45 0 09 Mar 2025
Pi-GPS: Enhancing Geometry Problem Solving by Unleashing the Power of Diagrammatic Information Junbo Zhao Ting Zhang Jiayu Sun Mi Tian Hua Huang 36 0 0 07 Mar 2025
Forgotten Polygons: Multimodal Large Language Models are Shape-Blind William Rudman Michal Golovanesky Amir Bar Vedant Palit Yann LeCun Carsten Eickhoff Ritambhara Singh LRM 57 2 0 21 Feb 2025
Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning Yibo Yan Shen Wang Jiahao Huo Jingheng Ye Zhendong Chu Xuming Hu Philip S. Yu Carla P. Gomes B. Selman Qingsong Wen LRM 127 9 0 05 Feb 2025
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking Jinyang Wu Mingkuan Feng Shuai Zhang Ruihan Jin Feihu Che Zengqi Wen J. Tao LRM 68 8 0 04 Feb 2025
Baichuan-Omni-1.5 Technical Report Yadong Li Jiaheng Liu Tao Zhang Tao Zhang Tian Jin ... Jianhua Xu Haoze Sun Mingan Lin Guosheng Dong Xin Wu AuLLM 75 12 0 28 Jan 2025
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics Ruilin Luo Zhuofan Zheng Yifan Wang Yiyao Yu Xinzhe Ni Zicheng Lin Jin Zeng Yujiu Yang LRM 83 13 0 08 Jan 2025
Chimera: Improving Generalist Model with Domain-Specific Experts Tianshuo Peng Mingxing Li Hongbin Zhou Renqiu Xia Renrui Zhang ... Aojun Zhou Botian Shi Tao Chen Bo Zhang Xiangyu Yue 90 4 0 08 Dec 2024
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection Yibo Yan Shen Wang Jiahao Huo Hang Li Yangqiu Song ... Kun Wang Hui Xiong Philip S. Yu Xuming Hu Qingsong Wen LRM 36 14 0 06 Oct 2024
We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? Runqi Qiao Qiuna Tan Guanting Dong Minhui Wu Chong Sun ... Yida Xu Muxi Diao Zhimin Bao Chen Li Honggang Zhang VLM LRM 47 32 0 01 Jul 2024
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration Qinghao Ye Haiyang Xu Jiabo Ye Mingshi Yan Anwen Hu Haowei Liu Qi Qian Ji Zhang Fei Huang Jingren Zhou MLLM VLM 126 379 0 07 Nov 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 363 12,003 0 04 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 392 4,154 0 28 Jan 2022