Minimax Regret Bounds for Reinforcement Learning

16 March 2017

Papers citing "Minimax Regret Bounds for Reinforcement Learning"

41 / 241 papers shown

Title
Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension Ruosong Wang Ruslan Salakhutdinov Lin F. Yang 28 55 0 21 May 2020
Tightening Exploration in Upper Confidence Reinforcement Learning Hippolyte Bourel Odalric-Ambrym Maillard M. S. Talebi 30 31 0 20 Apr 2020
Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis K. Khamaru A. Pananjady Feng Ruan Martin J. Wainwright Michael I. Jordan OffRL 32 47 0 16 Mar 2020
Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints Qinbo Bai Vaneet Aggarwal Ather Gattami 27 7 0 11 Mar 2020
Exploration-Exploitation in Constrained MDPs Yonathan Efroni Shie Mannor Matteo Pirotta 33 171 0 04 Mar 2020
Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss Shuang Qiu Xiaohan Wei Zhuoran Yang Jieping Ye Zhaoran Wang 14 47 0 02 Mar 2020
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization Dongsheng Ding Xiaohan Wei Zhuoran Yang Zhaoran Wang M. Jovanović 49 159 0 01 Mar 2020
Learning Near Optimal Policies with Low Inherent Bellman Error Andrea Zanette A. Lazaric Mykel Kochenderfer Emma Brunskill OffRL 27 221 0 29 Feb 2020
Learning Zero-Sum Simultaneous-Move Markov Games Using Function Approximation and Correlated Equilibrium Qiaomin Xie Yudong Chen Zhaoran Wang Zhuoran Yang 41 125 0 17 Feb 2020
Provable Self-Play Algorithms for Competitive Reinforcement Learning Yu Bai Chi Jin SSL 27 148 0 10 Feb 2020
Reward-Free Exploration for Reinforcement Learning Chi Jin A. Krishnamurthy Max Simchowitz Tiancheng Yu OffRL 118 194 0 07 Feb 2020
Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning Ming Yin Yu Wang OffRL 29 80 0 29 Jan 2020
Naive Exploration is Optimal for Online LQR Max Simchowitz Dylan J. Foster 32 182 0 27 Jan 2020
Optimism in Reinforcement Learning with Generalized Linear Function Approximation Yining Wang Ruosong Wang S. Du A. Krishnamurthy 137 135 0 09 Dec 2019
Kinematic State Abstraction and Provably Efficient Rich-Observation Reinforcement Learning Dipendra Kumar Misra Mikael Henaff A. Krishnamurthy John Langford 36 151 0 13 Nov 2019
Recovering Bandits Ciara Pike-Burke Steffen Grunewalder 15 40 0 31 Oct 2019
Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes Chen-Yu Wei Mehdi Jafarnia-Jahromi Haipeng Luo Hiteshi Sharma R. Jain 107 100 0 15 Oct 2019
Influence-Based Multi-Agent Exploration Tonghan Wang Jianhao Wang Yi Wu Chongjie Zhang 24 138 0 12 Oct 2019
Model-Based Reinforcement Learning Exploiting State-Action Equivalence Mahsa Asadi M. S. Talebi Hippolyte Bourel Odalric-Ambrym Maillard OffRL 19 9 0 09 Oct 2019
Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning? Ofir Nachum Haoran Tang Xingyu Lu S. Gu Honglak Lee Sergey Levine 29 100 0 23 Sep 2019
Behaviour Suite for Reinforcement Learning Ian Osband Yotam Doron Matteo Hessel John Aslanides Eren Sezener ... Satinder Singh Benjamin Van Roy R. Sutton David Silver H. V. Hasselt OffRL 32 178 0 09 Aug 2019
Provably Efficient Reinforcement Learning with Linear Function Approximation Chi Jin Zhuoran Yang Zhaoran Wang Michael I. Jordan 52 543 0 11 Jul 2019
A Tractable Algorithm For Finite-Horizon Continuous Reinforcement Learning Phanideep Gampa Sairam Satwik Kondamudi L. Kailasam 14 1 0 26 Jun 2019
Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function Zihan Zhang Xiangyang Ji 21 71 0 12 Jun 2019
Tight Regret Bounds for Model-Based Reinforcement Learning with Greedy Policies Yonathan Efroni Nadav Merlis Mohammad Ghavamzadeh Shie Mannor OffRL 24 68 0 27 May 2019
Reinforcement Learning in Feature Space: Matrix Bandit, Kernels, and Regret Bound Lin F. Yang Mengdi Wang OffRL GP 26 283 0 24 May 2019
Online Convex Optimization in Adversarial Markov Decision Processes Aviv A. Rosenberg Yishay Mansour 15 137 0 19 May 2019
A Meta-MDP Approach to Exploration for Lifelong Reinforcement Learning Francisco M. Garcia Philip S. Thomas 24 38 0 03 Feb 2019
Q-learning with UCB Exploration is Sample Efficient for Infinite-Horizon MDP Kefan Dong Yuanhao Wang Xiaoyu Chen Liwei Wang OffRL 19 95 0 27 Jan 2019
Tighter Problem-Dependent Regret Bounds in Reinforcement Learning without Domain Knowledge using Value Function Bounds Andrea Zanette Emma Brunskill OffRL 56 273 0 01 Jan 2019
Exploration Bonus for Regret Minimization in Undiscounted Discrete and Continuous Markov Decision Processes Jian Qian Ronan Fruit Matteo Pirotta A. Lazaric 14 10 0 11 Dec 2018
The Gap Between Model-Based and Model-Free Methods on the Linear Quadratic Regulator: An Asymptotic Viewpoint Stephen Tu Benjamin Recht OffRL 35 150 0 09 Dec 2018
Provably Efficient Maximum Entropy Exploration Elad Hazan Sham Kakade Karan Singh A. V. Soest 36 295 0 06 Dec 2018
Policy Certificates: Towards Accountable Reinforcement Learning Christoph Dann Ashutosh Adhikari Wei Wei Jimmy J. Lin OffRL 25 141 0 07 Nov 2018
Regret Bounds for Reinforcement Learning via Markov Chain Concentration R. Ortner 33 46 0 06 Aug 2018
Dual Policy Iteration Wen Sun Geoffrey J. Gordon Byron Boots J. Andrew Bagnell OffRL 26 56 0 28 May 2018
Variance Reduction Methods for Sublinear Reinforcement Learning Sham Kakade Mengdi Wang Lin F. Yang 19 32 0 26 Feb 2018
Efficient Bias-Span-Constrained Exploration-Exploitation in Reinforcement Learning Ronan Fruit Matteo Pirotta A. Lazaric R. Ortner 27 115 0 12 Feb 2018
Noisy Networks for Exploration Meire Fortunato M. G. Azar Bilal Piot Jacob Menick Ian Osband ... Rémi Munos Demis Hassabis Olivier Pietquin Charles Blundell Shane Legg 30 889 0 30 Jun 2017
Deep Exploration via Randomized Value Functions Ian Osband Benjamin Van Roy Daniel Russo Zheng Wen 41 299 0 22 Mar 2017
Deep Reinforcement Learning: An Overview Yuxi Li OffRL VLM 115 1,506 0 25 Jan 2017