Let's Reinforce Step by Step

10 November 2023

Papers citing "Let's Reinforce Step by Step"

2 / 2 papers shown

Title
AURORA:Automated Training Framework of Universal Process Reward Models via Ensemble Prompting and Reverse Verification Xiaoyu Tan Tianchu Yao C. Qu Bin Li Minghao Yang ... Haozhe Wang Xihe Qiu Wei Chu Yinghui Xu Yuan Qi OffRL LRM 49 2 0 17 Feb 2025
On the Transformations across Reward Model, Parameter Update, and In-Context Prompt Deng Cai Huayang Li Tingchen Fu Siheng Li Weiwen Xu ... Leyang Cui Yan Wang Lemao Liu Taro Watanabe Shuming Shi KELM 30 2 0 24 Jun 2024