Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach

17 October 2024

Papers citing "Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach"

11 / 11 papers shown

Title
Adaptive Rollout Length for Model-Based RL Using Model-Free Deep RL Abhinav Bhatia Philip S. Thomas S. Zilberstein OffRL 26 3 0 06 Jun 2022
ReVar: Strengthening Policy Evaluation via Reduced Variance Sampling Subhojyoti Mukherjee Josiah P. Hanna Robert D. Nowak OffRL 60 15 0 09 Mar 2022
Phasic Policy Gradient K. Cobbe Jacob Hilton Oleg Klimov John Schulman OffRL 57 158 0 09 Sep 2020
When to Trust Your Model: Model-Based Policy Optimization Michael Janner Justin Fu Marvin Zhang Sergey Levine OffRL 98 952 0 19 Jun 2019
Smoothing Policies and Safe Policy Gradients Matteo Papini Matteo Pirotta Marcello Restelli 41 31 0 08 May 2019
Target-Based Temporal Difference Learning Donghwan Lee Niao He OOD 63 31 0 24 Apr 2019
Tighter Problem-Dependent Regret Bounds in Reinforcement Learning without Domain Knowledge using Value Function Bounds Andrea Zanette Emma Brunskill OffRL 104 276 0 01 Jan 2019
The Uncertainty Bellman Equation and Exploration Brendan O'Donoghue Ian Osband Rémi Munos Volodymyr Mnih 68 192 0 15 Sep 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 517 19,065 0 20 Jul 2017
Infinite-Horizon Policy-Gradient Estimation Jonathan Baxter Peter L. Bartlett 100 811 0 03 Jun 2011
Empirical Bernstein Bounds and Sample Variance Penalization Andreas Maurer Massimiliano Pontil 397 545 0 21 Jul 2009