What Makes a Reward Model a Good Teacher? An Optimization Perspective

19 March 2025

Papers citing "What Makes a Reward Model a Good Teacher? An Optimization Perspective"

8 / 8 papers shown

Title
Discriminative Policy Optimization for Token-Level Reward Models Hongzhan Chen Tao Yang Shiping Gao Ruijun Chen Xiaojun Quan Hongtao Tian Ting Yao 10 0 0 29 May 2025
Accelerating RLHF Training with Reward Variance Increase Zonglin Yang Zhexuan Gu Houduo Qi Yancheng Yuan 34 0 0 29 May 2025
Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO Ruizhe Shi Minhak Song Runlong Zhou Zihan Zhang Maryam Fazel S. S. Du 31 0 0 26 May 2025
Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners Jiabao Ji Yongchao Chen Yang Zhang Ramana Rao Kompella Chuchu Fan Gaowen Liu Shiyu Chang 38 0 0 26 May 2025
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 126 3 0 05 May 2025
Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang Qing Yang Zhiyuan Zeng Liliang Ren Liu Liu ... Jianfeng Gao Weizhu Chen Shuaiqiang Wang Simon Shaolei Du Yelong Shen OffRL ReLM LRM 214 23 0 29 Apr 2025
TTRL: Test-Time Reinforcement Learning Yuxin Zuo Kaiyan Zhang Li Sheng Li Sheng Xuekai Zhu ... Youbang Sun Zhiyuan Ma Lifan Yuan Ning Ding Bowen Zhou OffRL 294 17 0 22 Apr 2025
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning Yixuan Even Xu Yash Savani Fei Fang Zico Kolter OffRL 71 4 0 18 Apr 2025