Efficient Process Reward Model Training via Active Learning

14 April 2025

Papers citing "Efficient Process Reward Model Training via Active Learning"

6 / 6 papers shown

Title
Sailing by the Stars: A Survey on Reward Models and Learning Strategies for Learning from Rewards Xiaobao Wu LRM 202 5 0 05 May 2025
AURORA:Automated Training Framework of Universal Process Reward Models via Ensemble Prompting and Reverse Verification Jue Chen Tianchu Yao Chao Qu Bin Li Minghao Yang ... Haozhe Wang Xihe Qiu Wei Chu Yinghui Xu Yuan Qi OffRL LRM 99 2 0 17 Feb 2025
Process Reinforcement through Implicit Rewards Ganqu Cui Lifan Yuan Ziyi Wang Hanbin Wang Wendi Li ... Yu Cheng Zhiyuan Liu Maosong Sun Bowen Zhou Ning Ding OffRL LRM 157 103 0 03 Feb 2025
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models Mingyang Song Zhaochen Su Xiaoye Qu Jiawei Zhou Yu Cheng LRM 125 40 0 06 Jan 2025
Process Reward Model with Q-Value Rankings W. Li Yixuan Li LRM 135 25 0 15 Oct 2024
Concrete Problems in AI Safety Dario Amodei C. Olah Jacob Steinhardt Paul Christiano John Schulman Dandelion Mané 253 2,405 0 21 Jun 2016