Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

21 May 2025

Papers citing "Learn to Reason Efficiently with Adaptive Length-based Reward Shaping"

2 / 2 papers shown

Title
Demystifying Long Chain-of-Thought Reasoning in LLMs Edward Yeo Yuxuan Tong Morry Niu Graham Neubig Xiang Yue OffRL LRM 112 107 0 05 Feb 2025
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 245 18,685 0 20 Jul 2017