Policy Gradient Methods for Reinforcement Learning with Function Approximation and Action-Dependent Baselines

20 June 2017

Papers citing "Policy Gradient Methods for Reinforcement Learning with Function Approximation and Action-Dependent Baselines"

2 / 2 papers shown

Title
Doubly Optimal Policy Evaluation for Reinforcement Learning Shuze Liu Claire Chen Shangtong Zhang OffRL 177 3 0 03 Oct 2024
A Notation for Markov Decision Processes Philip S. Thomas Billy Okal 147 17 0 30 Dec 2015