Title
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning Yige Xu Xu Guo Zhiwei Zeng Chunyan Miao BDL LRM 12 0 0 16 May 2025
When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs Xiaomin Li Zhou Yu Zhiwei Zhang Xupeng Chen Ziji Zhang Yingying Zhuang Narayanan Sadagopan Anurag Beniwal LRM 7 0 0 16 May 2025
BLEUBERI: BLEU is a surprisingly effective reward for instruction following Yapei Chang Yekyung Kim Michael Krumdick Amir Zadeh Chuan Li Chris Tanner Mohit Iyyer ALM 19 0 0 16 May 2025
Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory Yexiang Liu Zekun Li Zhi Fang Nan Xu Ran He Tieniu Tan LRM 17 0 0 16 May 2025
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning Ke Wang Junting Pan Linda Wei Aojun Zhou Weikang Shi ... Han Xiao Yiran Yang Houxing Ren Mingjie Zhan Hongsheng Li 29 0 0 15 May 2025
Training Strategies for Efficient Embodied Reasoning William Chen Suneel Belkhale Suvir Mirchandani Oier Mees Danny Driess Karl Pertsch Sergey Levine OffRL LRM 23 0 0 13 May 2025
HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking Runquan Gui Zhilin Wang Jun Wang Chi Ma Huiling Zhen M. Yuan Jianye Hao Defu Lian Enhong Chen Feng Wu LRM 141 0 0 05 May 2025
GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets Mingqian He Fei Zhao Chonggang Lu Ziqiang Liu Yishuo Wang Haofu Qian OffRL AI4TS VLM 72 0 0 28 Apr 2025
Meta-Thinking in LLMs via Multi-Agent Reinforcement Learning: A Survey Ahsan Bilal Muhammad Ahmed Mohsin Muhammad Umer Muhammad Awais Khan Bangash Muhammad Ali Jamshed LLMAG LRM AI4CE 56 0 0 20 Apr 2025
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models Xiao Pu Michael Stephen Saxon Wenyue Hua William Yang Wang LRM 30 0 0 17 Apr 2025
Memorization vs. Reasoning: Updating LLMs with New Knowledge Aochong Oliver Li Tanya Goyal KELM 50 1 0 16 Apr 2025
Efficient Reasoning Models: A Survey Sicheng Feng Gongfan Fang Xinyin Ma Xinchao Wang ReLM LRM 148 2 0 15 Apr 2025
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization? Daniil Larionov Sotaro Takeshita Ran Zhang Yanran Chen Christoph Leiter Zhipin Wang Christian Greisinger Steffen Eger ReLM ELM LRM 72 1 0 10 Apr 2025
ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs Gejian Zhao Hanzhou Wu Xinpeng Zhang Athanasios V. Vasilakos LRM 38 1 0 08 Apr 2025
The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning T. Zheng Yixiang Chen Chengxi Li Chunyang Li Qing Zong Haochen Shi Baixuan Xu Yangqiu Song Ginny Wong Simon See LRM 39 0 0 07 Apr 2025
Hawkeye:Efficient Reasoning with Model Collaboration Jianshu She Z. Li Zhemin Huang Qi Li Peiran Xu Haonan Li Qirong Ho LRM 60 2 0 01 Apr 2025
Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models Irtaza Khalid Amir Masoud Nourollah Steven Schockaert LRM 40 0 0 30 Mar 2025
Efficient Inference for Large Reasoning Models: A Survey Yi Liu Jiaying Wu Yufei He Hongcheng Gao Hongyu Chen Baolong Bi Jiaheng Zhang Zhiqi Huang Bryan Hooi LLMAG LRM 73 7 0 29 Mar 2025
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond Xiaoye Qu Yafu Li Zhaochen Su Weigao Sun Jianhao Yan ... Chaochao Lu Yue Zhang Xian-Sheng Hua Bowen Zhou Yu Cheng ReLM OffRL LRM 88 16 0 27 Mar 2025
Entropy-based Exploration Conduction for Multi-step Reasoning Jinghan Zhang Xiting Wang Fengran Mo Yeyang Zhou Wanfu Gao Kunpeng Liu LRM 57 1 0 20 Mar 2025
The KoLMogorov Test: Compression by Code Generation Ori Yoran Kunhao Zheng Fabian Gloeckle Jonas Gehring Gabriel Synnaeve Taco Cohen 64 1 0 18 Mar 2025
MetaScale: Test-Time Scaling with Evolving Meta-Thoughts Qin Liu Wenxuan Zhou Nan Xu James Y. Huang Fei-Yue Wang Sheng Zhang Hoifung Poon M. Chen LLMAG ReLM AI4Cl LRM 98 1 0 17 Mar 2025
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning Zixu Cheng Jian Hu Ziquan Liu Chenyang Si Wei Li Shaogang Gong LRM 75 2 0 14 Mar 2025
Policy Frameworks for Transparent Chain-of-Thought Reasoning in Large Language Models Yihang Chen Haikang Deng Kaiqiao Han Qingyue Zhao LRM 55 0 0 14 Mar 2025
Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More Arvid Frydenlund LRM 48 0 0 13 Mar 2025
Development and Enhancement of Text-to-Image Diffusion Models Rajdeep Roshan Sahu VLM 64 16 0 07 Mar 2025
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models Zhifei Xie Mingbao Lin Ziqiang Liu Pengcheng Wu Shuicheng Yan Chunyan Miao AuLLM OffRL LRM 79 7 0 04 Mar 2025
Improving LLM-as-a-Judge Inference with the Judgment Distribution Victor Wang Michael J.Q. Zhang Eunsol Choi 58 0 0 04 Mar 2025
Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision Dawei Zhu Xiyu Wei Guangxiang Zhao Wenhao Wu Haosheng Zou Junfeng Ran Xun Wang Lin Sun Xiangzheng Zhang Sujian Li LRM 56 1 0 28 Feb 2025
Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs Jungsoo Park Junmo Kang Gabriel Stanovsky Alan Ritter 57 0 0 26 Feb 2025
Unveiling and Causalizing CoT: A Causal Pespective Jiarun Fu LiZhong Ding Hao Li P. Li Qiuning Wei Xu Chen LRM 83 0 0 25 Feb 2025
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning Frederikus Hudi Genta Indra Winata Ruochen Zhang Alham Fikri Aji ReLM LRM 82 2 0 25 Feb 2025
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models Zitong Yu Dasen Dai Jen-Yuan Huang Youliang Yuan Xiaoyuan Liu Wenxuan Wang Wenxiang Jiao Pinjia He Zhaopeng Tu LRM 59 0 0 23 Feb 2025
Beyond Pattern Recognition: Probing Mental Representations of LMs Moritz Miller Kumar Shridhar ReLM LRM 55 0 0 23 Feb 2025
DISC: Dynamic Decomposition Improves LLM Inference Scaling Jonathan Light Wei Cheng Wu Yue Masafumi Oyamada Mengdi Wang Santiago Paternain Haifeng Chen ReLM LRM 64 2 0 23 Feb 2025
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation Yuqing Yang Ajay Patel Matt Deitke Tanmay Gupta Luca Weihs ... Mark Yatskar Chris Callison-Burch Ranjay Krishna Aniruddha Kembhavi Christopher Clark SyDa 78 2 0 21 Feb 2025
Improving Value-based Process Verifier via Structural Prior Injection Zetian Sun Dongfang Li Baotian Hu Jun Yu Min-Ling Zhang 44 0 0 21 Feb 2025
Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception Shiyu Ni Keping Bi J. Guo Lulu Yu Baolong Bi Xueqi Cheng 56 2 0 17 Feb 2025
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs Yige Xu Xu Guo Zhiwei Zeng Chunyan Miao LLMAG CLL LRM 63 10 0 17 Feb 2025
Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models Jongho Kim Seung-won Hwang LRM AI4CE 58 0 0 17 Feb 2025
CoT-Valve: Length-Compressible Chain-of-Thought Tuning Xinyin Ma Guangnian Wan Runpeng Yu Gongfan Fang Xinchao Wang LRM 76 21 0 13 Feb 2025
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency Dongzhi Jiang Renrui Zhang Ziyu Guo Yanwei Li Yu Qi ... Shen Yan Bo Zhang Chaoyou Fu Peng Gao Hongsheng Li MLLM LRM 93 21 0 13 Feb 2025
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics Ruilin Luo Zhuofan Zheng Yifan Wang Yiyao Yu Xinzhe Ni Zicheng Lin Jin Zeng Yujiu Yang LRM 70 13 0 08 Jan 2025
Understand, Solve and Translate: Bridging the Multilingual Mathematical Reasoning Gap Hyunwoo Ko Guijin Son Dasol Choi RALM LRM 78 7 0 05 Jan 2025
A 2-step Framework for Automated Literary Translation Evaluation: Its Promises and Pitfalls Sheikh Shafayat Dongkeun Yoon Woori Jang Jiwoo Choi Alice H. Oh Seohyon Jung 94 1 0 03 Jan 2025
Chumor 2.0: Towards Benchmarking Chinese Humor Understanding Ruiqi He Yushu He Longju Bai Jiarui Liu Zhenjie Sun Zenghao Tang He Wang Hanchen Xia Rada Mihalcea Naihao Deng 78 1 0 23 Dec 2024
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge Angelika Romanou Negar Foroutan Anna Sotnikova Zeming Chen Sree Harsha Nelaturu ... Mike Zhang Imanol Schlag Marzieh Fadaee Sara Hooker Antoine Bosselut ELM 113 6 0 29 Nov 2024
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS Jinyang Wu Mingkuan Feng Shuai Zhang Feihu Che Zengqi Wen J. Tao ReLM LRM 112 9 0 27 Nov 2024
$The Two-Hop Curse: LLMs trained on A$\rightarrow$B, B$\rightarrow$C fail to learn A$\rightarrow$C$ The Two-Hop Curse: LLMs trained on A $\rightarrow$ B, B $\rightarrow$ C fail to learn A $\rightarrow$ C Mikita Balesni Tomek Korbak Owain Evans ReLM LRM 81 0 0 25 Nov 2024
Reducing Reasoning Costs: The Path of Optimization for Chain of Thought via Sparse Attention Mechanism Libo Wang LRM AI4CE 48 0 0 14 Nov 2024