A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

9 April 2025

Papers citing "A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility"

7 / 57 papers shown

Title
Evaluating the Performance of Reinforcement Learning Algorithms Scott M. Jordan Yash Chandak Daniel Cohen Mengxue Zhang Philip S. Thomas 58 47 0 30 Jun 2020
What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study Marcin Andrychowicz Anton Raichuk Piotr Stańczyk Manu Orsini Sertan Girgin ... Matthieu Geist Olivier Pietquin Marcin Michalski Sylvain Gelly Olivier Bachem OffRL 70 224 0 10 Jun 2020
A Metric Learning Reality Check Kevin Musgrave Serge J. Belongie Ser-Nam Lim 145 479 0 18 Mar 2020
Measuring the Reliability of Reinforcement Learning Algorithms Stephanie C. Y. Chan Sam Fishman John F. Canny Anoop Korattikara Balan S. Guadarrama 57 84 0 10 Dec 2019
How Many Random Seeds? Statistical Power Analysis in Deep Reinforcement Learning Experiments Cédric Colas Olivier Sigaud Pierre-Yves Oudeyer 45 93 0 21 Jun 2018
Re-evaluating Evaluation David Balduzzi K. Tuyls Julien Perolat T. Graepel MoMe 60 101 0 07 Jun 2018
Deep Reinforcement Learning that Matters Peter Henderson Riashat Islam Philip Bachman Joelle Pineau Doina Precup David Meger OffRL 125 1,963 0 19 Sep 2017