v1v2 (latest)

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

24 March 2025

Papers citing "SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild"

47 / 97 papers shown

Title
Tina: Tiny Reasoning Models via LoRA Shangshang Wang Julian Asilis Ömer Faruk Akgül Enes Burak Bilgin Ollie Liu Willie Neiswanger OffRL LRM 102 8 0 22 Apr 2025
Acting Less is Reasoning More! Teaching Model to Act Efficiently Hongru Wang Cheng Qian Wanjun Zhong Xiusi Chen Jiahao Qiu Shijue Huang Bowen Jin Mengdi Wang Kam-Fai Wong Heng Ji OffRL LRM 84 5 0 21 Apr 2025
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning Jie Cheng Ruixi Qiao Lijun Li Chao Guo Jianmin Wang Gang Xiong Yisheng Lv Fei-Yue Wang LRM 386 4 0 21 Apr 2025
Learning to Reason under Off-Policy Guidance Jianhao Yan Yafu Li Zican Hu Zhi Wang Ganqu Cui Xiaoye Qu Yu Cheng Yue Zhang OffRL LRM 100 11 0 21 Apr 2025
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Yang Yue Shiji Song Gao Huang ReLM LRM 182 93 0 18 Apr 2025
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation Xiangyan Liu Jinjie Ni Zijian Wu Chao Du Longxu Dou Haoran Wang Tianyu Pang Michael Shieh OffRL LRM 416 10 0 17 Apr 2025
Open-Medical-R1: How to Choose Data for RLVR Training at Medicine Domain Zhongxi Qiu Zhang Zhang Yan Hu Heng Li Jiang-Dong Liu OffRL 425 0 0 16 Apr 2025
Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning Syeda Nahida Akter Shrimai Prabhumoye Matvei Novikov Seungju Han Ying Lin ... Eric Nyberg Yejin Choi M. Patwary Mohammad Shoeybi Bryan Catanzaro ReLM OffRL LRM 443 3 1 15 Apr 2025
Efficient Reasoning Models: A Survey Sicheng Feng Gongfan Fang Xinyin Ma Xinchao Wang ReLM LRM 355 11 0 15 Apr 2025
Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time Wang Yang Xiang Yue Vipin Chaudhary Xiaotian Han ReLM LRM 106 7 0 12 Apr 2025
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning Haozhe Wang Chao Qu Zuming Huang Wei Chu Fangzhen Lin Wenhu Chen OffRL ReLM SyDa LRM VLM 140 27 0 10 Apr 2025
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models Hardy Chen Haoqin Tu Fali Wang Hui Liu Xianfeng Tang Xinya Du Yuyin Zhou Cihang Xie ReLM VLM OffRL LRM 132 27 0 10 Apr 2025
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility Andreas Hochlehnert Hardik Bhatnagar Vishaal Udandarao Samuel Albanie Ameya Prabhu Matthias Bethge ReLM ALM LRM 191 20 0 09 Apr 2025
Leanabell-Prover: Posttraining Scaling in Formal Reasoning Jingyuan Zhang Qi Wang Xingguang Ji Yang Liu Yang Yue Fuzheng Zhang Di Zhang Guorui Zhou Kun Gai LRM 75 5 0 08 Apr 2025
Concise Reasoning via Reinforcement Learning Mehdi Fatemi Banafsheh Rafiee Mingjie Tang Kartik Talamadupula ReLM OffRL LRM 124 15 0 07 Apr 2025
Efficient Reinforcement Finetuning via Adaptive Curriculum Learning Taiwei Shi Yiyang Wu Linxin Song Dinesh Manocha Jieyu Zhao LRM 141 12 0 07 Apr 2025
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme Yan Ma Steffi Chern Xuyang Shen Yiran Zhong Pengfei Liu OffRL LRM 115 9 0 03 Apr 2025
ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning Bairu Hou Yang Zhang Jiabao Ji Yujian Liu Kaizhi Qian Jacob Andreas Shiyu Chang OffRL LRM 94 25 0 02 Apr 2025
How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study Yunjie Ji Sitong Zhao Xiaoyu Tian Haotian Wang Shuaiting Chen Yiping Peng Han Zhao Xiangang Li LRM 80 2 0 01 Apr 2025
Understanding R1-Zero-Like Training: A Critical Perspective Zichen Liu Changyu Chen Wenjun Li Penghui Qi Tianyu Pang Chao Du Wee Sun Lee Min Lin OffRL LRM 190 141 0 26 Mar 2025
FastCuRL: Curriculum Reinforcement Learning with Stage-wise Context Scaling for Efficient Training R1-like Reasoning Models Mingyang Song Mao Zheng Zheng Li Wenjie Yang Xuan Luo Yue Pan Feng Zhang ReLM LRM 138 7 0 21 Mar 2025
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning Bo Liu Yunxiang Li Yangqiu Song Hanjing Wang Linyi Yang ... Jun Wang Jun Wang Weinan Zhang Shuyue Hu Ying Wen LLMAG KELM LRM AI4CE 132 10 0 12 Mar 2025
An Empirical Study on Eliciting and Improving R1-like Reasoning Models Zhongfu Chen Yingqian Min Beichen Zhang Jie Chen Jinhao Jiang ... Xu Miao Yaojie Lu Lei Fang Zhongyuan Wang Ji-Rong Wen ReLM OffRL LRM 125 35 0 06 Mar 2025
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs Kanishk Gandhi Ayush Chakravarthy Anikait Singh Nathan Lile Noah D. Goodman ReLM LRM 149 84 0 03 Mar 2025
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning Tian Xie Zitian Gao Qingnan Ren Haoming Luo Yuqian Hong Bryan Dai Joey Zhou Kai Qiu Zhirong Wu Chong Luo ReLM OffRL LRM 134 68 0 21 Feb 2025
Demystifying Long Chain-of-Thought Reasoning in LLMs Edward Yeo Yuxuan Tong Morry Niu Graham Neubig Xiang Yue OffRL LRM 165 121 0 05 Feb 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zihao Huang Ziyao Xu Zhiyong Yang Zonghan Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 248 274 0 22 Jan 2025
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs Xingyu Chen Jiahao Xu Tian Liang Zhiwei He Jianhui Pang ... Zizhuo Zhang Rui Wang Zhaopeng Tu Haitao Mi Dong Yu LRM ReLM 169 168 0 30 Dec 2024
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners Weihao Zeng Yuzhen Huang Lulu Zhao Yijun Wang Zifei Shan Junxian He LRM 122 15 0 23 Dec 2024
Diving into Self-Evolving Training for Multimodal Reasoning Wei Liu Junlong Li Xiwen Zhang Fan Zhou Yu Cheng Junxian He LRM ReLM 121 15 0 23 Dec 2024
GPT-4o System Card OpenAI OpenAI : Aaron Hurst Adam Lerer Adam P. Goucher ... Yuchen He Yuchen Zhang Yujia Jin Yunxing Dai Yury Malkov MLLM 184 901 0 25 Oct 2024
HybridFlow: A Flexible and Efficient RLHF Framework Guangming Sheng Chi Zhang Zilingfeng Ye Xibin Wu Wang Zhang Ru Zhang Size Zheng Haibin Lin Chuan Wu AI4CE 163 201 0 28 Sep 2024
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement An Yang Beichen Zhang Binyuan Hui Bofei Gao Bowen Yu ... Mingfeng Xue Runji Lin Tianyu Liu Xingzhang Ren Zhenru Zhang OSLM LRM 98 287 0 18 Sep 2024
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models Yaowei Zheng Richong Zhang Junhao Zhang Yanhan Ye Zheyan Luo Zhangchi Feng Yongqiang Ma 144 523 0 20 Mar 2024
Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision Zhiqing Sun Longhui Yu Yikang Shen Weiyang Liu Yiming Yang Sean Welleck Chuang Gan 79 68 0 14 Mar 2024
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems Chaoqun He Renjie Luo Yuzhuo Bai Shengding Hu Zhen Leng Thai ... Yuxiang Zhang Jie Liu Lei Qi Zhiyuan Liu Maosong Sun ELM AIMat 106 249 0 21 Feb 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 138 1,119 0 05 Feb 2024
Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations Peiyi Wang Lei Li Zhihong Shao R. X. Xu Damai Dai Yifei Li Deli Chen Y.Wu Zhifang Sui AIMat LRM ALM 132 362 0 14 Dec 2023
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models Avi Singh John D. Co-Reyes Rishabh Agarwal Ankesh Anand Piyush Patil ... Yamini Bansal Ethan Dyer Behnam Neyshabur Jascha Narain Sohl-Dickstein Noah Fiedel ALM LRM ReLM SyDa 204 183 0 11 Dec 2023
GPQA: A Graduate-Level Google-Proof Q&A Benchmark David Rein Betty Li Hou Asa Cooper Stickland Jackson Petty Richard Yuanzhe Pang Julien Dirani Julian Michael Samuel R. Bowman AI4MH ELM 92 682 0 20 Nov 2023
Instruction-Following Evaluation for Large Language Models Jeffrey Zhou Tianjian Lu Swaroop Mishra Siddhartha Brahma Sujoy Basu Yi Luan Denny Zhou Le Hou ELM ALM LRM 72 273 0 14 Nov 2023
Let's Verify Step by Step Hunter Lightman V. Kosaraju Yura Burda Harrison Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever K. Cobbe ALM OffRL LRM 191 1,164 0 31 May 2023
Solving Quantitative Reasoning Problems with Language Models Aitor Lewkowycz Anders Andreassen David Dohan Ethan Dyer Henryk Michalewski ... Theo Gutman-Solo Yuhuai Wu Behnam Neyshabur Guy Gur-Ari Vedant Misra ReLM ELM LRM 177 837 0 29 Jun 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 817 9,387 0 28 Jan 2022
Training Verifiers to Solve Math Word Problems K. Cobbe V. Kosaraju Mohammad Bavarian Mark Chen Heewoo Jun ... Jerry Tworek Jacob Hilton Reiichiro Nakano Christopher Hesse John Schulman ReLM OffRL LRM 285 4,408 0 27 Oct 2021
Measuring Mathematical Problem Solving With the MATH Dataset Dan Hendrycks Collin Burns Saurav Kadavath Akul Arora Steven Basart Eric Tang Basel Alomair Jacob Steinhardt ReLM FaML 173 2,265 0 05 Mar 2021
Measuring Massive Multitask Language Understanding Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika Basel Alomair Jacob Steinhardt ELM RALM 176 4,434 0 07 Sep 2020