v1v2 (latest)

Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards

30 May 2025

Papers citing "Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards"

1 / 1 papers shown

Title
Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks Yifei Xu Tusher Chakraborty Srinagesh Sharma Leonardo Nunes Emre Kıcıman Songwu Lu Ranveer Chandra OffRL LRM 28 1 0 16 Jun 2025