Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation

24 June 2021

Papers citing "Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation"

36 / 36 papers shown

Title
Discovering Reinforcement Learning Algorithms Junhyuk Oh Matteo Hessel Wojciech M. Czarnecki Zhongwen Xu H. V. Hasselt Satinder Singh David Silver 62 129 0 17 Jul 2020
Meta-Gradient Reinforcement Learning with an Objective Discovered Online Zhongwen Xu H. V. Hasselt Matteo Hessel Junhyuk Oh Satinder Singh David Silver 73 77 0 16 Jul 2020
Taylor Expansion Policy Optimization Yunhao Tang Michal Valko Rémi Munos OffRL 24 14 0 13 Mar 2020
Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning Kaiyi Ji Junjie Yang Yingbin Liang 75 50 0 18 Feb 2020
From Importance Sampling to Doubly Robust Policy Gradient Jiawei Huang Nan Jiang OffRL 59 24 0 20 Oct 2019
VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning L. Zintgraf K. Shiarlis Maximilian Igl Sebastian Schulze Y. Gal Katja Hofmann Shimon Whiteson OffRL 53 276 0 18 Oct 2019
Adaptive Trade-Offs in Off-Policy Learning Mark Rowland Will Dabney Rémi Munos OffRL 97 22 0 16 Oct 2019
Loaded DiCE: Trading off Bias and Variance in Any-Order Score Function Estimators for Reinforcement Learning Gregory Farquhar Shimon Whiteson Jakob N. Foerster 56 17 0 23 Sep 2019
On the Convergence Theory of Gradient-Based Model-Agnostic Meta-Learning Algorithms Alireza Fallah Aryan Mokhtari Asuman Ozdaglar 78 225 0 27 Aug 2019
On the Theory of Policy Gradient Methods: Optimality, Approximation, and Distribution Shift Alekh Agarwal Sham Kakade Jason D. Lee G. Mahajan 59 320 0 01 Aug 2019
Meta-learning of Sequential Strategies Pedro A. Ortega Jane X. Wang Mark Rowland Tim Genewein Z. Kurth-Nelson ... Yee Whye Teh H. V. Hasselt Nando de Freitas M. Botvinick Shane Legg OffRL 108 99 0 08 May 2019
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables Kate Rakelly Aurick Zhou Deirdre Quillen Chelsea Finn Sergey Levine OffRL 78 653 0 19 Mar 2019
ProMP: Proximal Meta-Policy Search Jonas Rothfuss Dennis Lee I. Clavera Tamim Asfour Pieter Abbeel 55 210 0 16 Oct 2018
Meta-Gradient Reinforcement Learning Zhongwen Xu H. V. Hasselt David Silver 104 324 0 24 May 2018
Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines Cathy Wu Aravind Rajeswaran Yan Duan Vikash Kumar Alexandre M. Bayen Sham Kakade Igor Mordatch Pieter Abbeel OffRL 53 153 0 20 Mar 2018
Simple random search provides a competitive approach to reinforcement learning Horia Mania Aurelia Guy Benjamin Recht 56 315 0 19 Mar 2018
Some Considerations on Learning to Explore via Meta-Reinforcement Learning Bradly C. Stadie Ge Yang Rein Houthooft Xi Chen Yan Duan Yuhuai Wu Pieter Abbeel Ilya Sutskever LRM 70 115 0 03 Mar 2018
The Mirage of Action-Dependent Baselines in Reinforcement Learning George Tucker Surya Bhupatiraju S. Gu Richard Turner Zoubin Ghahramani Sergey Levine OffRL 67 127 0 27 Feb 2018
DiCE: The Infinitely Differentiable Monte-Carlo Estimator Jakob N. Foerster Gregory Farquhar Maruan Al-Shedivat Tim Rocktaschel Eric Xing Shimon Whiteson 46 97 0 14 Feb 2018
Evolved Policy Gradients Rein Houthooft Richard Y. Chen Phillip Isola Bradly C. Stadie Filip Wolski Jonathan Ho Pieter Abbeel 81 227 0 13 Feb 2018
IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures L. Espeholt Hubert Soyer Rémi Munos Karen Simonyan Volodymyr Mnih ... Vlad Firoiu Tim Harley Iain Dunning Shane Legg Koray Kavukcuoglu 189 1,594 0 05 Feb 2018
Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments Maruan Al-Shedivat Trapit Bansal Yuri Burda Ilya Sutskever Igor Mordatch Pieter Abbeel CLL 63 353 0 10 Oct 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 444 18,931 0 20 Jul 2017
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 806 11,866 0 09 Mar 2017
RL $^2$ : Fast Reinforcement Learning via Slow Reinforcement Learning Yan Duan John Schulman Xi Chen Peter L. Bartlett Ilya Sutskever Pieter Abbeel OffRL 76 1,015 0 09 Nov 2016
Safe and Efficient Off-Policy Reinforcement Learning Rémi Munos T. Stepleton Anna Harutyunyan Marc G. Bellemare OffRL 138 615 0 08 Jun 2016
TensorFlow: A system for large-scale machine learning Martín Abadi P. Barham Jianmin Chen Zhiwen Chen Andy Davis ... Vijay Vasudevan Pete Warden Martin Wicke Yuan Yu Xiaoqiang Zhang GNN AI4CE 415 18,334 0 27 May 2016
Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning Philip S. Thomas Emma Brunskill OffRL 381 576 0 04 Apr 2016
Dueling Network Architectures for Deep Reinforcement Learning Ziyun Wang Tom Schaul Matteo Hessel H. V. Hasselt Marc Lanctot Nando de Freitas OffRL 91 3,749 0 20 Nov 2015
Doubly Robust Off-policy Value Evaluation for Reinforcement Learning Nan Jiang Lihong Li OffRL 190 623 0 11 Nov 2015
Gradient Estimation Using Stochastic Computation Graphs John Schulman N. Heess T. Weber Pieter Abbeel OffRL 133 392 0 17 Jun 2015
End-to-End Training of Deep Visuomotor Policies Sergey Levine Chelsea Finn Trevor Darrell Pieter Abbeel BDL 286 3,431 0 02 Apr 2015
Doubly Robust Policy Evaluation and Optimization Miroslav Dudík D. Erhan John Langford Lihong Li OffRL 170 285 0 10 Mar 2015
Trust Region Policy Optimization John Schulman Sergey Levine Philipp Moritz Michael I. Jordan Pieter Abbeel 274 6,755 0 19 Feb 2015
Auto-Encoding Variational Bayes Diederik P. Kingma Max Welling BDL 424 16,944 0 20 Dec 2013
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves Ioannis Antonoglou Daan Wierstra Martin Riedmiller 114 12,201 0 19 Dec 2013