Multimodal Chain-of-Thought Reasoning in Language Models

2 February 2023

George Karypis

Papers citing "Multimodal Chain-of-Thought Reasoning in Language Models"

50 / 64 papers shown

Title
MonoCoP: Chain-of-Prediction for Monocular 3D Object Detection Zhihao Zhang Abhinav Kumar Girish Chandar Ganesan Xiaoming Liu 157 0 0 07 May 2025
Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection SungHeon Jeong Jihong Park Mohsen Imani 59 0 0 05 May 2025
ReLI: A Language-Agnostic Approach to Human-Robot Interaction Linus Nwankwo Bjoern Ellensohn Ozan Özdenizci Elmar Rueckert LM&Ro 58 0 0 03 May 2025
Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization Kesen Zhao B. Zhu Qianru Sun Hanwang Zhang MLLM LRM 86 0 0 25 Apr 2025
SDIGLM: Leveraging Large Language Models and Multi-Modal Chain of Thought for Structural Damage Identification Yuhang Zhang Shiyin Wei Yong Huang Yawu Su Shanshan Lu Hui Li AI4CE 26 0 0 12 Apr 2025
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment Jiayang Sun H. Wang Jie Cao Huaibo Huang Ran He DiffM 73 0 0 10 Apr 2025
Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models Yuxiang Lin Jingdong Sun Zhi-Qi Cheng Jue Wang Haomin Liang Zebang Cheng Yifei Dong Jun-Yan He Xiaojiang Peng Xian-Sheng Hua 47 0 0 10 Apr 2025
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks Wenbo Zhang Mengna Wang Gangao Liu Xu Huixin Yiwei Jiang ... Hang Zhang Xin Li Weiming Lu Peng Li Y. Zhuang LM&Ro LRM 65 3 0 27 Mar 2025
Video-R1: Reinforcing Video Reasoning in MLLMs Kaituo Feng Kaixiong Gong Yangqiu Song Zonghao Guo Yibing Wang Tianshuo Peng Jian Wu Xiaoying Zhang Benyou Wang Xiangyu Yue AI4TS SyDa LRM 48 13 0 27 Mar 2025
VITED: Video Temporal Evidence Distillation Yujie Lu Yale Song William Yang Wang Lorenzo Torresani Tushar Nagarajan 156 0 0 17 Mar 2025
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning Yong-Jin Liu Kevin Qinghong Lin C. Chen Mike Zheng Shou LM&Ro LRM 84 0 0 17 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Yixuan Wang Shengqiong Wu Yuyao Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 92 8 0 16 Mar 2025
ProtTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models Zicheng Ma Chuanliu Fan Zhicong Wang Zhenyu Chen Xiaohan Lin Yongqian Li Shihao Feng Jun Zhang Ziqiang Cao Y. Gao 45 0 0 11 Mar 2025
Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts Shiu-hong Kao Yu-Wing Tai Chi-Keung Tang LRM MLLM 56 0 0 10 Mar 2025
Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning Yanjun Chen Yirong Sun Xinghao Chen Jian Wang Xiaoyu Shen W. Li Wei Zhang 3DV LRM 64 1 0 08 Mar 2025
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking Jinyang Wu Mingkuan Feng Shuai Zhang Ruihan Jin Feihu Che Zengqi Wen J. Tao LRM 68 8 0 04 Feb 2025
Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis Lanling Xu Junjie Zhang Bingqian Li Jinpeng Wang Sheng Chen Wayne Xin Zhao Ji-Rong Wen 79 18 0 17 Jan 2025
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model Z. Ma Zhuo Chen Yixuan Wang Eng Siong Chng Xie Chen AuLLM LRM 62 9 0 13 Jan 2025
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics Ruilin Luo Zhuofan Zheng Yifan Wang Yiyao Yu Xinzhe Ni Zicheng Lin Jin Zeng Yujiu Yang LRM 70 13 0 08 Jan 2025
An Overview and Discussion on Using Large Language Models for Implementation Generation of Solutions to Open-Ended Problems Hashmath Shaik Alex Doboli OffRL ELM 149 0 0 31 Dec 2024
In-Context Learning with Iterative Demonstration Selection Chengwei Qin Aston Zhang Cheng Chen Anirudh Dagar Wenming Ye LRM 68 38 0 31 Dec 2024
VidCtx: Context-aware Video Question Answering with Image Models Andreas Goulas Vasileios Mezaris Ioannis Patras 159 0 0 23 Dec 2024
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models Zihui Cheng Qiguang Chen Jin Zhang Hao Fei Xiaocheng Feng Wanxiang Che Min Li L. Qin VLM MLLM LRM 75 4 0 17 Dec 2024
Evaluating Vision-Language Models as Evaluators in Path Planning Mohamed Aghzal Xiang Yue Erion Plaku Ziyu Yao LRM 77 1 0 27 Nov 2024
TurtleBench: A Visual Programming Benchmark in Turtle Geometry Sina Rismanchian Yasaman Razeghi Sameer Singh Shayan Doroudi 49 1 0 31 Oct 2024
Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models Qitan Lv Jie Wang Hanzhu Chen Bin Li Yongdong Zhang Feng Wu HILM 28 3 0 19 Oct 2024
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images Zhecan Wang Junzhang Liu Chia-Wei Tang Hani Alomari Anushka Sivakumar ... Haoxuan You A. Ishmam Kai-Wei Chang Shih-Fu Chang Chris Thomas CoGe VLM 61 2 0 19 Sep 2024
Efficient Knowledge Distillation: Empowering Small Language Models with Teacher Model Insights Mohamad Ballout U. Krumnack Gunther Heidemann Kai-Uwe Kühnberger 35 2 0 19 Sep 2024
Connecting Dreams with Visual Brainstorming Instruction Yasheng Sun Bohan Li Mingchen Zhuge Deng-Ping Fan Salman Khan F. Khan Hideki Koike DiffM 39 0 0 14 Aug 2024
CROME: Cross-Modal Adapters for Efficient Multimodal LLM Sayna Ebrahimi Sercan Ö. Arik Tejas Nama Tomas Pfister 44 1 0 13 Aug 2024
Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models Jinrui Zhang Teng Wang Haigang Zhang Ping Lu Feng Zheng MLLM LRM VLM 31 3 0 16 Jul 2024
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 75 31 0 24 Jun 2024
Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model Kuan-Chih Huang Xiangtai Li Lu Qi Shuicheng Yan Ming-Hsuan Yang LRM 73 10 0 27 May 2024
Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models Jiaqi Li Qianshan Wei Chuanyi Zhang Guilin Qi Miaozeng Du Yongrui Chen Sheng Bi Fan Liu VLM MU 72 12 0 21 May 2024
ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains Zhaopei Huang Jinming Zhao Qin Jin ReLM LRM 36 3 0 17 May 2024
Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model Seonhee Cho Choonghan Kim Jiho Lee Chetan Chilkunda Sujin Choi Joo Heung Yoon 53 0 0 29 Apr 2024
Leveraging Large Language Models for Multimodal Search Oriol Barbany Michael Huang Xinliang Zhu Arnab Dhua 31 9 0 24 Apr 2024
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems Zhiyuan Li Hong Liu Denny Zhou Tengyu Ma LRM AI4CE 28 96 0 20 Feb 2024
PlantoGraphy: Incorporating Iterative Design Process into Generative Artificial Intelligence for Landscape Rendering Rong Huang Haichuan Lin Chuanzhang Chen Kang Zhang Wei Zeng 29 15 0 30 Jan 2024
Prompt-In-Prompt Learning for Universal Image Restoration Zilong Li Yiming Lei Chenglong Ma Junping Zhang Hongming Shan VLM 37 25 0 08 Dec 2023
Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models Bingshuai Liu Chenyang Lyu Zijun Min Zhanyu Wang Jinsong Su Longyue Wang LRM 31 7 0 04 Dec 2023
Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training Cheng Tan Jingxuan Wei Zhangyang Gao Linzhuang Sun Siyuan Li Ruifeng Guo Xihong Yang Stan Z. Li LRM 31 7 0 23 Nov 2023
A Survey on Multimodal Large Language Models for Autonomous Driving Can Cui Yunsheng Ma Xu Cao Wenqian Ye Yang Zhou ... Xinrui Yan Shuqi Mei Jianguo Cao Ziran Wang Chao Zheng 41 251 0 21 Nov 2023
Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents Zhuosheng Zhang Yao Yao Aston Zhang Xiangru Tang Xinbei Ma ... Yiming Wang Mark B. Gerstein Rui Wang Gongshen Liu Hai Zhao LLMAG LM&Ro LRM 36 53 0 20 Nov 2023
HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning in Large Language Models Yinghui He Yufan Wu Yilin Jia Rada Mihalcea Yulong Chen Naihao Deng LRM LLMAG 30 21 0 25 Oct 2023
Configuration Validation with Large Language Models Xinyu Lian Yinfang Chen Runxiang Cheng Jie Huang Parth Thakkar Minjia Zhang Tianyin Xu 18 10 0 15 Oct 2023
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models Cheng-Yu Hsieh Sibei Chen Chun-Liang Li Yasuhisa Fujii Alexander Ratner Chen-Yu Lee Ranjay Krishna Tomas Pfister LLMAG SyDa 40 41 0 01 Aug 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang F. Khan VLM 38 118 0 25 Jul 2023
Temporal Data Meets LLM -- Explainable Financial Time Series Forecasting Xinli Yu Zheng Chen Yuan Ling Shujing Dong Zongying Liu Yanbin Lu AIFin AI4TS 125 69 0 19 Jun 2023
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering Rabiul Awal Le Zhang Aishwarya Agrawal LRM 38 12 0 16 Jun 2023