Process Reward Models That Think

23 April 2025

Papers citing "Process Reward Models That Think"

4 / 4 papers shown

Title
Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision Tej Deep Pala Panshul Sharma Amir Zadeh Chuan Li Soujanya Poria LRM 5 0 0 26 May 2025
Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models Doohyuk Jang Yoonjeon Kim Chanjae Park Hyun Ryu Eunho Yang LRM 7 0 0 22 May 2025
J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization Austin Xu Yilun Zhou Xuan-Phi Nguyen Caiming Xiong Shafiq Joty ELM LRM 33 0 0 19 May 2025
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 93 2 0 05 May 2025