Title
Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning Sam Silver Jimin Sun Ivan Zhang Sara Hooker Eddie Kim KELM ReLM LRM 30 0 0 18 Jun 2025
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs Ling Team Bin Hu Cai Chen Deng Zhao Ding Liu ... Zhenglei Zhou Zhenyu Huang Zhiqiang Zhang Zihao Wang Zujie Wen OffRL MoE ALM LRM 55 0 0 17 Jun 2025
SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks Zijian Song Xiaoxin Lin Qiuming Huang Guangrun Wang Liang Lin LRM 39 0 0 17 Jun 2025
Learning a Continue-Thinking Token for Enhanced Test-Time Scaling Liran Ringel Elad Tolochinsky Yaniv Romano LRM 27 0 0 12 Jun 2025
PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier Y. Jiang Yuwen Xiong Yufeng Yuan Chao Xin Wenyuan Xu Yu Yue Qianchuan Zhao Lin Yan LRM 128 0 0 12 Jun 2025
Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning Jikai Jin Vasilis Syrgkanis Sham Kakade Hanlin Zhang ELM 134 1 0 12 Jun 2025
Code Execution as Grounded Supervision for LLM Reasoning Dongwon Jung Wenxuan Zhou Muhao Chen OffRL LRM 104 0 0 12 Jun 2025
Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training Shurui Gui Shuiwang Ji LRM 80 0 0 11 Jun 2025
Flow Matching Meets PDEs: A Unified Framework for Physics-Constrained Generation Giacomo Baldan Qiang Liu Alberto Guardone Nils Thuerey AI4CE 35 1 0 10 Jun 2025
AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions Polina Kirichenko Mark Ibrahim Kamalika Chaudhuri Samuel J. Bell LRM 25 0 0 10 Jun 2025
A Survey on Large Language Models for Mathematical Reasoning Peng-Yuan Wang Tian-Shuo Liu Chenyang Wang Yi-Di Wang Shu Yan ... Xu-Hui Liu Xin-Wei Chen Jia-Cheng Xu Ziniu Li Yang Yu LRM 42 0 0 10 Jun 2025
Large Language Models Have Intrinsic Meta-Cognition, but Need a Good Lens Ziyang Ma Qingyue Yuan Zhenglin Wang Deyu Zhou LLMAG LRM 36 0 0 10 Jun 2025
Synthesis by Design: Controlled Data Generation via Structural Guidance Lei Xu Sirui Chen Yuxuan Huang Chaochao Lu 33 0 0 09 Jun 2025
How Far Are We from Optimal Reasoning Efficiency? Jiaxuan Gao Shu Yan Qixin Tan Lu Yang Shusheng Xu Wei Fu Zhiyu Mei Kaifeng Lyu Yi Wu LRM 34 0 0 08 Jun 2025
TreeRPO: Tree Relative Policy Optimization Zhicheng YANG Zhijiang Guo Yinya Huang Xiaodan Liang Yiwei Wang Jing Tang LRM 101 0 0 05 Jun 2025
LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning Zhen Hao Wong Jingwen Deng Runming He Zirong Chen Qijie You Hejun Dong Hao Liang Chengyu Shen Bin Cui Wentao Zhang ReLM LRM 87 0 0 05 Jun 2025
Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay Yifan Sun Jingyan Shen Yibin Wang Tianyu Chen Zhendong Wang Mingyuan Zhou Huan Zhang 102 0 0 05 Jun 2025
Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models Fei Ding Baiqiao Wang Zijian Zeng Youwei Wang LRM 94 0 0 05 Jun 2025
Simulating LLM-to-LLM Tutoring for Multilingual Math Feedback Junior Cedric Tonga KV Aditya Srivatsa Kaushal Kumar Maurya Fajri Koto Ekaterina Kochmar LRM 111 0 0 05 Jun 2025
Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models Soumya Suvra Ghosal Souradip Chakraborty Avinash Reddy Yifu Lu Mengdi Wang Dinesh Manocha Furong Huang Mohammad Ghavamzadeh Amrit Singh Bedi ReLM LRM 95 0 0 04 Jun 2025
Matching Markets Meet LLMs: Algorithmic Reasoning with Ranked Preferences Hadi Hosseini Samarth Khanna Ronak Singh LRM 53 0 0 04 Jun 2025
Structured Pruning for Diverse Best-of-N Reasoning Optimization Hieu Trung Nguyen Bao Nguyen Viet Anh Nguyen LRM 73 0 0 04 Jun 2025
Rectified Sparse Attention Yutao Sun Tianzhu Ye Li Dong Yuqing Xia Jian Chen Yizhao Gao S. Cao Jianyong Wang Furu Wei 106 1 0 04 Jun 2025
Towards Generating Controllable and Solvable Geometry Problem by Leveraging Symbolic Deduction Engine Zhuoxuan Jiang T. Zhang Peiyan Peng Jing Chen Yinong Xun Haotian Zhang L. Li Yong Li Shaohua Zhang AI4CE 57 0 0 03 Jun 2025
Understanding Gender Bias in AI-Generated Product Descriptions Markelle Kelly Mohammad Tahaei Padhraic Smyth Lauren Wilcox 31 0 0 03 Jun 2025
Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem Yubo Wang Ping Nie Kai Zou Lijun Wu Wenhu Chen OffRL ReLM LRM 37 0 0 03 Jun 2025
The Unified Cognitive Consciousness Theory for Language Models: Anchoring Semantics, Thresholds of Activation, and Emergent Reasoning Edward Y. Chang LRM 29 0 0 02 Jun 2025
Breakpoint: Scalable evaluation of system-level reasoning in LLM code agents Kaivalya Hariharan Uzay Girit Atticus Wang Jacob Andreas LLMAG LRM 31 0 0 30 May 2025
ProofNet++: A Neuro-Symbolic System for Formal Proof Verification with Self-Correction Murari Ambati LRM 39 0 0 30 May 2025
Evaluation of LLMs for mathematical problem solving Ruonan Wang Runxi Wang Yunwen Shen Chengfeng Wu Qinglin Zhou Rohitash Chandra ELM LRM 74 0 0 30 May 2025
RAST: Reasoning Activation in LLMs via Small-model Transfer Siru Ouyang Xinyu Zhu Zilin Xiao Minhao Jiang Yu Meng Jiawei Han OffRL ReLM LRM 31 0 0 30 May 2025
DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning Ziyin Zhang Jiahao Xu Zhiwei He Tian Liang Qiuzhi Liu ... Zhuosheng Zhang Rui Wang Zhaopeng Tu Haitao Mi Dong Yu OffRL LRM 81 1 0 29 May 2025
Critical Batch Size Revisited: A Simple Empirical Approach to Large-Batch Language Model Training William Merrill Shane Arora Dirk Groeneveld Hannaneh Hajishirzi 55 0 0 29 May 2025
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models Ganqu Cui Yuchen Zhang Jiacheng Chen Lifan Yuan Zhi Wang ... Lei Bai Wanli Ouyang Yu Cheng Bowen Zhou Ning Ding LRM 90 5 0 28 May 2025
Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning Yuzhen Huang Weihao Zeng Xingshan Zeng Qi Zhu Junxian He LRM 91 0 0 28 May 2025
ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark M. Shalyt Rotem Elimelech I. Kaminer 37 0 0 28 May 2025
Conversational Alignment with Artificial Intelligence in Context Rachel Katharine Sterken James Ravi Kirkpatrick 29 0 0 28 May 2025
Scaling Reasoning without Attention Xueliang Zhao Wei Wu Lingpeng Kong OffRL ReLM LRM VLM 81 0 0 28 May 2025
Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration Yong Wu Weihang Pan Ke Li Chen Binhui Ping Li Binbin Lin LRM 73 0 0 27 May 2025
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning Mingyang Song Mao Zheng OffRL LRM 93 1 0 27 May 2025
Reinforcing General Reasoning without Verifiers Xiangxin Zhou Zichen Liu Anya Sims Haonan Wang Tianyu Pang Chongxuan Li Liang Wang Min Lin C. Du OffRL LRM 83 2 0 27 May 2025
How to Improve the Robustness of Closed-Source Models on NLI Joe Stacey Lisa Alazraki Aran Ubhi Beyza Ermis Aaron Mueller Marek Rei 42 0 0 26 May 2025
PATS: Process-Level Adaptive Thinking Mode Switching Yi Wang Junxiao Liu Shimao Zhang Jiajun Chen Shujian Huang LRM 58 0 0 25 May 2025
The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training Weize Chen Jiarui Yuan Tailin Jin Ning Ding Huimin Chen Zhiyuan Liu Maosong Sun OffRL MQ 55 0 0 25 May 2025
How Is LLM Reasoning Distracted by Irrelevant Context? An Analysis Using a Controlled Benchmark Minglai Yang Ethan Huang Liang Zhang Mihai Surdeanu William Yang Wang Liangming Pan LRM 64 0 0 24 May 2025
On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization Wenlong Deng Yi Ren Muchen Li Danica J. Sutherland Xiaoxiao Li Christos Thrampoulidis 69 0 0 24 May 2025
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation Ruichen Zhang Rana Muhammad Shahroz Khan Zhen Tan Dawei Li Song Wang Tianlong Chen LRM 65 0 0 24 May 2025
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning Huayu Chen Kaiwen Zheng Qinsheng Zhang Ganqu Cui Yin Cui Haotian Ye Tsung-Yi Lin Ming-Yu Liu Jun Zhu Haoxiang Wang OffRL LRM 263 3 0 23 May 2025
RECIPE-TKG: From Sparse History to Structured Reasoning for LLM-based Temporal Knowledge Graph Completion Ömer Faruk Akgül Feiyu Zhu Yuxin Yang Rajgopal Kannan Viktor Prasanna 77 0 0 23 May 2025
Dynamic Sampling that Adapts: Iterative DPO for Self-Aware Mathematical Reasoning Jun Rao Xuebo Liu Hexuan Deng Zepeng Lin Zixiong Yu Jiansheng Wei Xiaojun Meng Min Zhang LRM 219 0 0 22 May 2025