A Deep Reinforcement Learning Approach to Marginalized Importance Sampling with the Successor Representation

12 June 2021

Papers citing "A Deep Reinforcement Learning Approach to Marginalized Importance Sampling with the Successor Representation"

50 / 57 papers shown

Title
Benchmarks for Deep Off-Policy Evaluation Justin Fu Mohammad Norouzi Ofir Nachum George Tucker Ziyun Wang ... Yutian Chen Aviral Kumar Cosmin Paduraru Sergey Levine T. Paine ELM OffRL 71 103 0 30 Mar 2021
An Equivalence between Loss Functions and Non-Uniform Sampling in Experience Replay Scott Fujimoto David Meger Doina Precup 63 58 0 12 Jul 2020
Off-Policy Evaluation via the Regularized Lagrangian Mengjiao Yang Ofir Nachum Bo Dai Lihong Li Dale Schuurmans OffRL 41 117 0 07 Jul 2020
Experience Replay with Likelihood-free Importance Weights Samarth Sinha Jiaming Song Animesh Garg Stefano Ermon OffRL 54 56 0 23 Jun 2020
Black-box Off-policy Estimation for Infinite-Horizon Reinforcement Learning Ali Mousavi Lihong Li Qiang Liu Denny Zhou OffRL 64 33 0 24 Mar 2020
Stable Policy Optimization via Off-Policy Divergence Regularization Ahmed Touati Amy Zhang Joelle Pineau Pascal Vincent OffRL 99 17 0 09 Mar 2020
GenDICE: Generalized Offline Estimation of Stationary Values Ruiyi Zhang Bo Dai Lihong Li Dale Schuurmans OffRL 169 173 0 21 Feb 2020
GradientDICE: Rethinking Generalized Offline Estimation of Stationary Values Shangtong Zhang Bo Liu Shimon Whiteson OffRL 43 103 0 29 Jan 2020
Imitation Learning via Off-Policy Distribution Matching Ilya Kostrikov Ofir Nachum Jonathan Tompson OOD OffRL 125 204 0 10 Dec 2019
AlgaeDICE: Policy Gradient from Arbitrary Experience Ofir Nachum Bo Dai Ilya Kostrikov Yinlam Chow Lihong Li Dale Schuurmans OffRL 139 241 0 04 Dec 2019
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 379 42,299 0 03 Dec 2019
Disentangled Cumulants Help Successor Representations Transfer to New Tasks Christopher Grimm I. Higgins André Barreto Denis Teplyashin Markus Wulfmeier Tim Hertweck R. Hadsell Satinder Singh 59 14 0 25 Nov 2019
Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning Cameron Voloshin Hoang Minh Le Nan Jiang Yisong Yue OffRL 52 154 0 15 Nov 2019
Minimax Weight and Q-Function Learning for Off-Policy Evaluation Masatoshi Uehara Jiawei Huang Nan Jiang OffRL 132 187 0 28 Oct 2019
Understanding the Curse of Horizon in Off-Policy Evaluation via Conditional Importance Sampling Yao Liu Pierre-Luc Bacon Emma Brunskill OffRL 51 46 0 15 Oct 2019
Benchmarking Batch Deep Reinforcement Learning Algorithms Shih-Han Chou Wen-Yen Chang W. Hsu Jianlong Fu OffRL 63 184 0 03 Oct 2019
DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections Ofir Nachum Yinlam Chow Bo Dai Lihong Li OffRL 127 334 0 10 Jun 2019
Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling Tengyang Xie Yifei Ma Yu Wang OffRL 91 181 0 08 Jun 2019
Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction Aviral Kumar Justin Fu George Tucker Sergey Levine OffRL OnRL 109 1,054 0 03 Jun 2019
Deep Residual Reinforcement Learning Shangtong Zhang Wendelin Bohmer Shimon Whiteson 41 31 0 03 May 2019
Information-Theoretic Considerations in Batch Reinforcement Learning Jinglin Chen Nan Jiang OOD OffRL 137 375 0 01 May 2019
Generalized Off-Policy Actor-Critic Shangtong Zhang Wendelin Bohmer Shimon Whiteson OffRL CML 50 43 0 27 Mar 2019
Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement André Barreto Diana Borsa John Quan Tom Schaul David Silver Matteo Hessel D. Mankowitz Augustin Žídek Rémi Munos OffRL 102 164 0 30 Jan 2019
Off-Policy Deep Reinforcement Learning by Bootstrapping the Covariate Shift Carles Gelada Marc G. Bellemare OffRL 57 97 0 27 Jan 2019
A Theoretical Analysis of Deep Q-Learning Jianqing Fan Zhuoran Yang Yuchen Xie Zhaoran Wang 156 603 0 01 Jan 2019
Dopamine: A Research Framework for Deep Reinforcement Learning Pablo Samuel Castro Subhodeep Moitra Carles Gelada Saurabh Kumar Marc G. Bellemare OffRL 65 278 0 14 Dec 2018
Off-Policy Deep Reinforcement Learning without Exploration Scott Fujimoto David Meger Doina Precup OffRL BDL 200 1,604 0 07 Dec 2018
An Off-policy Policy Gradient Theorem Using Emphatic Weightings Ehsan Imani Eric Graves Martha White OffRL 65 71 0 22 Nov 2018
Horizon: Facebook's Open Source Applied Reinforcement Learning Platform J. Gauci Edoardo Conti Yitao Liang Kittipat Virochsiri Yuchen He Zachary Kaden Vivek Narayanan Xiaohui Ye Zhengxing Chen Scott Fujimoto 44 139 0 01 Nov 2018
Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation Qiang Liu Lihong Li Ziyang Tang Dengyong Zhou OffRL 138 355 0 29 Oct 2018
Successor Uncertainties: Exploration and Uncertainty in Temporal Difference Learning David Janz Jiri Hron Przemysław Mazur Katja Hofmann José Miguel Hernández-Lobato Sebastian Tschiatschek 83 51 0 15 Oct 2018
Count-Based Exploration with the Successor Representation Marlos C. Machado Marc G. Bellemare Michael Bowling 34 186 0 31 Jul 2018
Addressing Function Approximation Error in Actor-Critic Methods Scott Fujimoto H. V. Hoof David Meger OffRL 169 5,168 0 26 Feb 2018
State Representation Learning for Control: An Overview Timothée Lesort Natalia Díaz Rodríguez Jean-François Goudou David Filliat OffRL 96 320 0 12 Feb 2018
More Robust Doubly Robust Off-policy Evaluation Mehrdad Farajtabar Yinlam Chow Mohammad Ghavamzadeh OffRL 70 267 0 10 Feb 2018
Eigenoption Discovery through the Deep Successor Representation Marlos C. Machado Clemens Rosenbaum Xiaoxiao Guo Miao Liu Gerald Tesauro Murray Campbell 59 140 0 30 Oct 2017
Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents Marlos C. Machado Marc G. Bellemare Erik Talvitie J. Veness Matthew J. Hausknecht Michael Bowling 71 552 0 18 Sep 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 444 18,931 0 20 Jul 2017
Visual Semantic Planning using Deep Successor Representations Yuke Zhu Daniel Gordon Eric Kolve Dieter Fox Li Fei-Fei Abhinav Gupta Roozbeh Mottaghi Ali Farhadi 61 141 0 23 May 2017
Consistent On-Line Off-Policy Evaluation Assaf Hallak Shie Mannor OffRL 64 93 0 23 Feb 2017
Multi-step Off-policy Learning Without Importance Sampling Ratios A. R. Mahmood Huizhen Yu R. Sutton OffRL 108 54 0 09 Feb 2017
Deep Reinforcement Learning with Successor Features for Navigation across Similar Environments Jingwei Zhang Jost Tobias Springenberg Joschka Boedecker Wolfram Burgard 63 295 0 16 Dec 2016
Optimal and Adaptive Off-policy Evaluation in Contextual Bandits Yu Wang Alekh Agarwal Miroslav Dudík OffRL 95 221 0 04 Dec 2016
Successor Features for Transfer in Reinforcement Learning André Barreto Will Dabney Rémi Munos Jonathan J. Hunt Tom Schaul H. V. Hasselt David Silver 45 573 0 16 Jun 2016
Safe and Efficient Off-Policy Reinforcement Learning Rémi Munos T. Stepleton Anna Harutyunyan Marc G. Bellemare OffRL 138 615 0 08 Jun 2016
Deep Successor Reinforcement Learning Tejas D. Kulkarni A. Saeedi Simanta Gautam S. Gershman 66 209 0 08 Jun 2016
Off-policy evaluation for slate recommendation Adith Swaminathan A. Krishnamurthy Alekh Agarwal Miroslav Dudík John Langford Damien Jose I. Zitouni CML OffRL 53 227 0 16 May 2016
Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning Philip S. Thomas Emma Brunskill OffRL 373 576 0 04 Apr 2016
Prioritized Experience Replay Tom Schaul John Quan Ioannis Antonoglou David Silver OffRL 210 3,787 0 18 Nov 2015
Doubly Robust Off-policy Value Evaluation for Reinforcement Learning Nan Jiang Lihong Li OffRL 188 623 0 11 Nov 2015