Title
SEAL: Steerable Reasoning Calibration of Large Language Models for Free Runjin Chen Zhenyu Zhang Junyuan Hong Souvik Kundu Zhangyang Wang OffRL LRM 55 3 0 07 Apr 2025
Inference-Time Scaling for Generalist Reward Modeling Zijun Liu P. Wang Ran Xu Shirong Ma Chong Ruan Peng Li Yang Liu Y. Wu OffRL LRM 46 19 0 03 Apr 2025
Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? Yi-Long Lu Chunhui Zhang Jiajun Song Lifeng Fan Wei Wang OffRL 53 0 0 02 Apr 2025
Improved Visual-Spatial Reasoning via R1-Zero-Like Training Zhenyi Liao Qingsong Xie Yanhao Zhang Zijian Kong Haonan Lu Zhenyu Yang Zhijie Deng ReLM VLM LRM 101 0 1 01 Apr 2025
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute Jianhao Chen Zishuo Xun Bocheng Zhou Han Qi Qiaosheng Zhang ... Wei Hu Yuzhong Qu W. Ouyang Wanli Ouyang Shuyue Hu 74 1 0 01 Apr 2025
Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs Sanjoy Chowdhury Hanan Gani Nishit Anand Sayan Nag Ruohan Gao Mohamed Elhoseiny Salman Khan Dinesh Manocha LRM 56 0 0 29 Mar 2025
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models Zhanke Zhou Zhaocheng Zhu Xuan Li Mikhail Galkin Xiao Feng Sanmi Koyejo Jian Tang Bo Han LRM 58 0 0 28 Mar 2025
Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation Jiakai Tang Sunhao Dai Teng Shi Jun Xu X. Chen Wen Chen Wu Jian Yuning Jiang LRM 77 5 0 28 Mar 2025
Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning Abdullah Vanlioglu 51 0 0 28 Mar 2025
ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models Chung-En Sun Ge Yan Tsui-Wei Weng KELM LRM 65 1 0 27 Mar 2025
From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment Yucheng Suo Fan Ma Linchao Zhu T. Wang Fengyun Rao Yi Yang LRM 77 0 0 26 Mar 2025
RL-finetuning LLMs from on- and off-policy data with a single algorithm Yunhao Tang Taco Cohen David W. Zhang Michal Valko Rémi Munos OffRL 44 2 0 25 Mar 2025
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild Weihao Zeng Yuzhen Huang Qian Liu Wei Liu Keqing He Zejun Ma Junxian He OffRL ReLM LRM 91 47 0 24 Mar 2025
A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications Jian Guan Junfei Wu J. Li Chuanqi Cheng Wei Wu LM&MA 91 0 0 21 Mar 2025
Adaptive Group Policy Optimization: Towards Stable Training and Token-Efficient Reasoning Chen Li Nazhou Liu Kai Yang 46 3 0 20 Mar 2025
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models Yang Sui Yu-Neng Chuang Guanchu Wang Jiamu Zhang Tianyi Zhang ... Hongyi Liu Andrew Wen Shaochen Zhong Hanjie Chen OffRL ReLM LRM 86 35 0 20 Mar 2025
Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs Nicolas Le Roux Marc G. Bellemare Jonathan Lebensold Arnaud Bergeron Joshua Greaves Alex Fréchette Carolyne Pelletier Eric Thibodeau-Laufer Sándor Toth Sam Work OffRL 91 4 0 18 Mar 2025
Safety Evaluation and Enhancement of DeepSeek Models in Chinese Contexts Wenjing Zhang Xuejiao Lei Zhaoxiang Liu Limin Han Jiaojiao Zhao ... Beibei Huang Rongjia Du Ning Wang Kai Wang Shiguo Lian ELM 56 1 0 18 Mar 2025
Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation Songjun Tu Jiahao Lin Xiangyu Tian Qichao Zhang Linjing Li ... Nan Xu Wei He Xiangyuan Lan D. Jiang Dongbin Zhao LRM 58 3 0 17 Mar 2025
Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models Teng Wang Zhangyi Jiang Zhenqi He Wenhan Yang Yanan Zheng Zeyu Li Zifan He Shenyang Tong Hailei Gong LRM 90 2 0 16 Mar 2025
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning Bo Liu Yunxiang Li Yangqiu Song Hanjing Wang Linyi Yang Mark W. Schmidt Jun Wang Weinan Zhang Shuyue Hu Ying Wen LLMAG KELM LRM AI4CE 92 6 0 12 Mar 2025
Process-Supervised LLM Recommenders via Flow-guided Tuning Chongming Gao Mengyao Gao Chenxiao Fan Shuai Yuan Wentao Shi Xiangnan He 76 2 0 10 Mar 2025
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models Wenxuan Huang Bohan Jia Zijie Zhai Shaosheng Cao Zheyu Ye Fei Zhao Zhe Xu Yao Hu Shaohui Lin MU OffRL LRM MLLM ReLM VLM 59 46 0 09 Mar 2025
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models Yuchen Yan Yongliang Shen Yuhang Liu Jin Jiang Hao Fei Jian Shao Yueting Zhuang LRM ReLM 53 3 0 09 Mar 2025
Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models? Kun Xiang Zhili Liu Zihao Jiang Yunshuang Nie Kaixin Cai ... Yu-Jie Yuan J. Han Lanqing Hong Hang Xu Xiaodan Liang ReLM LRM 62 6 0 08 Mar 2025
DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models Ruizhe Chen Wenhao Chai Zhifei Yang Xiaotian Zhang Qiufeng Wang Tony Q.S. Quek Soujanya Poria Zuozhu Liu 50 0 0 06 Mar 2025
DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models Yi Shen Jingyang Zhang Jieyun Huang Shuming Shi Wenjing Zhang Jiangze Yan Rongjia Du Ning Wang Kai Wang LRM 80 26 0 06 Mar 2025
Better Process Supervision with Bi-directional Rewarding Signals Wenxiang Chen Wei He Zhiheng Xi Honglin Guo Boyang Hong ... Nijun Li Tao Gui Yun Li Qi Zhang Xuanjing Huang LRM 57 2 0 06 Mar 2025
How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach Ayeong Lee Ethan Che Tianyi Peng LRM 50 16 0 03 Mar 2025
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs Abdelrahman Abouelenin Atabak Ashfaq Adam Atkinson Hany Awadalla Nguyen Bach ... Ishmam Zabir Yunan Zhang Li Zhang Wenjie Qu Xiren Zhou MoE SyDa 78 32 0 03 Mar 2025
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs Kanishk Gandhi Ayush Chakravarthy Anikait Singh Nathan Lile Noah D. Goodman ReLM LRM 93 38 0 03 Mar 2025
Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable Tiansheng Huang Sihao Hu Fatih Ilhan Selim Furkan Tekin Zachary Yahn Yichang Xu Ling Liu 55 13 0 01 Mar 2025
Self-Training Elicits Concise Reasoning in Large Language Models Tergel Munkhbat Namgyu Ho S. Kim Yongjin Yang Yujin Kim Se-Young Yun ReLM LRM 64 15 0 27 Feb 2025
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? Yancheng He Shilong Li Jun Liu Weixun Wang Xingyuan Bu ... Zhongyuan Peng Zhenru Zhang Zhicheng Zheng Wenbo Su Bo Zheng ELM LRM 86 9 0 26 Feb 2025
LeanProgress: Guiding Search for Neural Theorem Proving via Proof Progress Prediction Suozhi Huang Peiyang Song Robert Joseph George Anima Anandkumar AI4TS LRM 50 2 0 25 Feb 2025
How Far are LLMs from Real Search? A Comprehensive Study on Efficiency, Completeness, and Inherent Capabilities Minhua Lin Hui Liu Xianfeng Tang Jingying Zeng Zhenwei Dai Chen Luo Zheng Li Xiang Zhang Qi He Suhang Wang OffRL LRM 48 0 0 25 Feb 2025
NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions Weizhe Yuan Jane Dwivedi-Yu Song Jiang Karthik Padthe Yang Li ... Ilia Kulikov Kyunghyun Cho Yuandong Tian Jason Weston Xian Li ReLM LRM 66 14 0 24 Feb 2025
Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling Yiwen Ding Zhiheng Xi Wei He Zhuoyuan Li Yitao Zhai Xiaowei Shi Xunliang Cai Tao Gui Qi Zhang Xuanjing Huang LRM 77 4 0 24 Feb 2025
DISC: Dynamic Decomposition Improves LLM Inference Scaling Jonathan Light Wei Cheng Wu Yue Masafumi Oyamada Mengdi Wang Santiago Paternain Haifeng Chen ReLM LRM 64 2 0 23 Feb 2025
Dynamic Parallel Tree Search for Efficient LLM Reasoning Yifu Ding Wentao Jiang Shunyu Liu Yongcheng Jing J. Guo ... Zengmao Wang Ziqiang Liu Bo Du Xianglong Liu Dacheng Tao LRM 46 6 0 22 Feb 2025
Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents Patrick Tser Jern Kon Jiachen Liu Qiuyi Ding Yiming Qiu Zhenning Yang Yibo Huang Jayanth Srinivasa Myungjin Lee Mosharaf Chowdhury Ang Chen 56 3 0 22 Feb 2025
A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics Ting-Ruen Wei Haowei Liu Xuyang Wu Yi Fang LRM AI4CE ReLM KELM 235 2 0 21 Feb 2025
Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation Shuo Tang Xianghe Pang Zexi Liu Bohan Tang Guangyi Liu Xiaowen Dong Yanjie Wang Yanfeng Wang Tian Jin SyDa LLMAG 135 4 0 21 Feb 2025
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model Guangzhi Sun Yudong Yang Jimin Zhuang Changli Tang Yong Li W. Li Z. Ma Chao Zhang LRM MLLM VLM 66 4 0 17 Feb 2025
Improve LLM-as-a-Judge Ability as a General Ability Jiachen Yu Shaoning Sun Xiaohui Hu Jiaxu Yan Kaidong Yu Xuelong Li ELM 92 5 0 17 Feb 2025
Prompt-based Depth Pruning of Large Language Models Juyun Wee Minjae Park Jaeho Lee VLM 93 0 0 17 Feb 2025
Preference Optimization for Reasoning with Pseudo Feedback Fangkai Jiao Geyang Guo Xingxing Zhang Nancy F. Chen Chenyu You Furu Wei LRM 99 9 0 17 Feb 2025
A Critical Look At Tokenwise Reward-Guided Text Generation Ahmad Rashid Ruotian Wu Julia Grosse Agustinus Kristiadi Pascal Poupart OffRL 76 0 0 17 Feb 2025
AURORA:Automated Training Framework of Universal Process Reward Models via Ensemble Prompting and Reverse Verification Xiaoyu Tan Tianchu Yao C. Qu Bin Li Minghao Yang ... Haozhe Wang Xihe Qiu Wei Chu Yinghui Xu Yuan Qi OffRL LRM 49 2 0 17 Feb 2025
Efficient Long-Decoding Inference with Reasoning-Aware Attention Sparsity Junhao Hu Wenrui Huang Weidong Wang Zhenwen Li Tiancheng Hu Zhixia Liu Xusheng Chen Tao Xie Yizhou Shan LRM 53 0 0 16 Feb 2025