Title
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models Sohyun An Ruochen Wang Tianyi Zhou Cho-Jui Hsieh KELM LRM 48 0 0 27 May 2025
Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects Yixin Cui Haotian Lin Shuo Yang Yixiao Wang Yanjun Huang Hong Chen LM&Ro LRM ELM 64 0 0 26 May 2025
Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning Zezhong Wang Xingshan Zeng Weiwen Liu Yijiao Wang Liangyou Li Yasheng Wang Lifeng Shang Xin Jiang Qun Liu Kam-Fai Wong LRM 37 0 0 23 May 2025
Learning to Choose or Choosing to Learn: Best-of-N vs. Supervised Fine-Tuning for Bit String Generation Seamus Somerstep Vinod Raman Unique Subedi Yuekai Sun 38 0 0 22 May 2025
Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains Wenhui Tan Jiaze Li Jianzhong Ju Zhenbo Luo Jian Luan Ruihua Song ReLM OffRL LRM 52 0 0 22 May 2025
Automatic Dataset Generation for Knowledge Intensive Question Answering Tasks Sizhe Yuen Ting Su Ziyang Wang Yali Du Adam Sobey 47 0 0 20 May 2025
Reinforcement Learning vs. Distillation: Understanding Accuracy and Capability in LLM Reasoning Minwu Kim Anubhav Shrestha Safal Shrestha Aadim Nepal Keith Ross 33 0 0 20 May 2025
Optimizing Anytime Reasoning via Budget Relative Policy Optimization Penghui Qi Zichen Liu Tianyu Pang Chao Du W. Lee Min Lin OffRL LRM 37 0 0 19 May 2025
LLM-based Automated Theorem Proving Hinges on Scalable Synthetic Data Generation Junyu Lai Jiakun Zhang Shuo Xu Taolue Chen Zihang Wang Yao Yang Jiarui Zhang Chun Cao Jingwei Xu 38 0 0 17 May 2025
Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO Peter Chen Xiaopeng Li Zhiyu Li Xi Chen Tianyi Lin 59 0 0 16 May 2025
Crosslingual Reasoning through Test-Time Scaling Zheng-Xin Yong Muhammad Farid Adilazuarda Jonibek Mansurov Ruochen Zhang Niklas Muennighoff Carsten Eickhoff Genta Indra Winata Julia Kreutzer Stephen H. Bach Alham Fikri Aji LRM ELM 344 8 0 08 May 2025
Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Case Study Mohammad Khodadad Ali Shiraee Kasmaee Mahdi Astaraki Nicholas Sherck H. Mahyar Soheila Samiee LRM 360 0 0 23 Apr 2025
REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites Divyansh Garg Shaun VanWeelden Diego Caples Andis Draguns Nikil Ravi ... Youngchul Joo Jindong Gu Charles London Christian Schroeder de Witt S. Motwani 91 2 0 15 Apr 2025
Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning Ximing Lu Seungju Han David Acuna Hyunwoo Kim Jaehun Jung ... Niklas Muennighoff M. Patwary Mohammad Shoeybi Bryan Catanzaro Yejin Choi ReLM LRM 80 6 0 06 Apr 2025
Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition Rishi Hazra Gabriele Venturato Pedro Zuidberg Dos Martires Luc de Raedt ReLM LRM 82 1 0 04 Apr 2025
AnesBench: Multi-Dimensional Evaluation of LLM Reasoning in Anesthesiology Xiang Feng Wentao Jiang Zengmao Wang Yong Luo Pingbo Xu Baosheng Yu Hua Jin Bo Du Jing Zhang ELM LRM 73 0 0 03 Apr 2025
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding Wasi Uddin Ahmad Mehrzad Samadi Somshubra Majumdar Aleksander Ficek Siddhartha Jain Jocelyn Huang Vahid Noroozi Boris Ginsburg LRM 85 8 0 02 Apr 2025
Agents Play Thousands of 3D Video Games Zhongwen Xu Xianliang Wang Siyi Li Tao Yu Liang Wang Qiang Fu Wei Yang LM&Ro 62 0 0 17 Mar 2025
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning Bo Liu Yunxiang Li Yangqiu Song Hanjing Wang Linyi Yang ... Jun Wang Jun Wang Weinan Zhang Shuyue Hu Ying Wen LLMAG KELM LRM AI4CE 123 10 0 12 Mar 2025
Guess What I am Thinking: A Benchmark for Inner Thought Reasoning of Role-Playing Language Agents R. Xu Mingyu Wang Xintao Wang Dakuan Lu Jue Chen Wei Chu Yinghui Xu LRM LLMAG 125 0 0 11 Mar 2025
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning Yuxiao Qu Matthew Y. R. Yang Amrith Rajagopal Setlur Lewis Tunstall E. Beeching Ruslan Salakhutdinov Aviral Kumar OffRL 112 28 0 10 Mar 2025
Alchemist: Towards the Design of Efficient Online Continual Learning System Yuyang Huang Yuhan Liu Haryadi S. Gunawi Beibin Li Changho Hwang CLL OnRL 131 0 0 03 Mar 2025
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs Kanishk Gandhi Ayush Chakravarthy Anikait Singh Nathan Lile Noah D. Goodman ReLM LRM 123 60 0 03 Mar 2025
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning Wenkai Yang Shuming Ma Yankai Lin Furu Wei LRM 73 35 0 25 Feb 2025
Unveiling and Causalizing CoT: A Causal Pespective Jiarun Fu LiZhong Ding Hao Li P. Li Qiuning Wei Xu Chen LRM 94 0 0 25 Feb 2025
Scalable Best-of-N Selection for Large Language Models via Self-Certainty Zhewei Kang Xuandong Zhao Dawn Song LRM 93 4 0 25 Feb 2025
Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models Alon Albalak Duy Phung Nathan Lile Rafael Rafailov Kanishk Gandhi ... Anikait Singh Chase Blagden Violet Xiang Dakota Mahan Nick Haber OffRL LRM 72 11 0 24 Feb 2025
Investigating Inference-time Scaling for Chain of Multi-modal Thought: A Preliminary Study Yujie Lin Ante Wang Moye Chen Jingyao Liu Hao Liu Jinsong Su Xinyan Xiao LRM 83 3 0 17 Feb 2025
RL-STaR: Theoretical Analysis of Reinforcement Learning Frameworks for Self-Taught Reasoner Fu-Chieh Chang Yu-Ting Lee Hui-Ying Shih Pei-Yuan Wu Pei-Yuan Wu OffRL LRM 376 0 0 31 Oct 2024
Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning Jiasheng Ye Zaixiang Zheng Yu Bao Lihua Qian Quanquan Gu DiffM 100 16 0 23 Aug 2023