Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning

v1v2 (latest)

Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds for Episodic Reinforcement Learning

2 July 2021

ArXiv (abs)PDF HTML

Papers citing "Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds for Episodic Reinforcement Learning"

13 / 13 papers shown

Title
Gap-Dependent Bounds for Q-Learning using Reference-Advantage Decomposition Zhong Zheng Haochen Zhang Lingzhou Xue OffRL 134 4 0 10 Oct 2024
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis Qining Zhang Honghao Wei Lei Ying OffRL 129 2 0 11 Jun 2024
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond Xutong Liu Siwei Wang Jinhang Zuo Han Zhong Xuchuang Wang Zhiyong Wang Shuai Li Mohammad Hajiesmaili J. C. Lui Wei Chen 234 4 0 03 Jun 2024
Settling the Sample Complexity of Online Reinforcement Learning Zihan Zhang Yuxin Chen Jason D. Lee S. Du OffRL 194 25 0 25 Jul 2023
Logarithmic Regret for Reinforcement Learning with Linear Function Approximation Jiafan He Dongruo Zhou Quanquan Gu 53 95 0 23 Nov 2020
$Q$ -learning with Logarithmic Regret Kunhe Yang Lin F. Yang S. Du 84 61 0 16 Jun 2020
Corruption-robust exploration in episodic reinforcement learning Thodoris Lykouris Max Simchowitz Aleksandrs Slivkins Wen Sun 90 105 0 20 Nov 2019
Non-Asymptotic Gap-Dependent Regret Bounds for Tabular MDPs Max Simchowitz Kevin Jamieson 63 147 0 09 May 2019
Tighter Problem-Dependent Regret Bounds in Reinforcement Learning without Domain Knowledge using Value Function Bounds Andrea Zanette Emma Brunskill OffRL 120 276 0 01 Jan 2019
Minimal Exploration in Structured Stochastic Bandits Richard Combes Stefan Magureanu Alexandre Proutiere 440 119 0 01 Nov 2017
Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning Christoph Dann Tor Lattimore Emma Brunskill 83 311 0 22 Mar 2017
On the Sample Complexity of Reinforcement Learning with a Generative Model M. G. Azar Rémi Munos H. Kappen 87 156 0 27 Jun 2012
Empirical Bernstein Bounds and Sample Variance Penalization Andreas Maurer Massimiliano Pontil 413 545 0 21 Jul 2009

We use cookies and other tracking technologies to improve your browsing experience on our website, to show you personalized content and targeted ads, to analyze our website traffic, and to understand where our visitors are coming from. See our policy.