SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM

SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM

19 April 2025

Papers citing "SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM"

1 / 1 papers shown

Title
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math Haoran Xu Baolin Peng Hany Awadalla Dongdong Chen Yen-Chun Chen ... Yelong Shen S. Wang Weijian Xu Jianfeng Gao Weizhu Chen ReLM LRM 75 1 0 30 Apr 2025