Improved Corruption Robust Algorithms for Episodic Reinforcement Learning

13 February 2021

Papers citing "Improved Corruption Robust Algorithms for Episodic Reinforcement Learning"

22 / 22 papers shown

Title
A Model Selection Approach for Corruption Robust Reinforcement Learning Chen-Yu Wei Christoph Dann Julian Zimmert 99 44 0 31 Dec 2024
User-Oriented Robust Reinforcement Learning Haoyi You Beichen Yu Haiming Jin Zhaoxing Yang Jiahui Sun OffRL 40 0 0 15 Feb 2022
Achieving Near Instance-Optimality and Minimax-Optimality in Stochastic and Adversarial Linear Bandits Simultaneously Chung-Wei Lee Haipeng Luo Chen-Yu Wei Mengxiao Zhang Xiaojin Zhang 45 47 0 11 Feb 2021
Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive Multi-Step Bootstrap Haike Xu Tengyu Ma S. Du 21 42 0 09 Feb 2021
Is Reinforcement Learning More Difficult Than Bandits? A Near-optimal Algorithm Escaping the Curse of Horizon Zihan Zhang Xiangyang Ji S. Du OffRL 64 104 0 28 Sep 2020
Fast active learning for pure exploration in reinforcement learning Pierre Ménard O. D. Domingues Anders Jonsson E. Kaufmann Edouard Leurent Michal Valko 26 95 0 27 Jul 2020
Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs Chung-Wei Lee Haipeng Luo Chen-Yu Wei Mengxiao Zhang 51 52 0 14 Jun 2020
Adaptive Reward-Free Exploration E. Kaufmann Pierre Ménard O. D. Domingues Anders Jonsson Edouard Leurent Michal Valko 35 81 0 11 Jun 2020
Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition Tiancheng Jin Haipeng Luo 19 56 0 10 Jun 2020
Is Long Horizon Reinforcement Learning More Difficult Than Short Horizon Reinforcement Learning? Ruosong Wang S. Du Lin F. Yang Sham Kakade OffRL 30 52 0 01 May 2020
Learning Adversarial MDPs with Bandit Feedback and Unknown Transition Chi Jin Tiancheng Jin Haipeng Luo S. Sra Tiancheng Yu 26 103 0 03 Dec 2019
Corruption-robust exploration in episodic reinforcement learning Thodoris Lykouris Max Simchowitz Aleksandrs Slivkins Wen Sun 28 105 0 20 Nov 2019
Stochastic Linear Optimization with Adversarial Corruption Yingkai Li Edmund Y. Lou Liren Shan AAML 17 42 0 04 Sep 2019
Online Convex Optimization in Adversarial Markov Decision Processes Aviv A. Rosenberg Yishay Mansour 30 137 0 19 May 2019
Data Poisoning Attacks on Stochastic Bandits Fang Liu Ness B. Shroff AAML 30 100 0 16 May 2019
Non-Asymptotic Gap-Dependent Regret Bounds for Tabular MDPs Max Simchowitz Kevin Jamieson 38 144 0 09 May 2019
Better Algorithms for Stochastic Bandits with Adversarial Corruptions Anupam Gupta Tomer Koren Kunal Talwar AAML 28 152 0 22 Feb 2019
Tighter Problem-Dependent Regret Bounds in Reinforcement Learning without Domain Knowledge using Value Function Bounds Andrea Zanette Emma Brunskill OffRL 81 273 0 01 Jan 2019
Is Q-learning Provably Efficient? Chi Jin Zeyuan Allen-Zhu Sébastien Bubeck Michael I. Jordan OffRL 42 801 0 10 Jul 2018
Exploration in Structured Reinforcement Learning Jungseul Ok Alexandre Proutiere Damianos Tranos 55 62 0 03 Jun 2018
Stochastic bandits robust to adversarial corruptions Thodoris Lykouris Vahab Mirrokni R. Leme AAML 49 203 0 25 Mar 2018
Minimax Regret Bounds for Reinforcement Learning M. G. Azar Ian Osband Rémi Munos 47 768 0 16 Mar 2017