Episodic Reinforcement Learning in Finite MDPs: Minimax Lower Bounds Revisited

7 October 2020

Pierre Ménard

Papers citing "Episodic Reinforcement Learning in Finite MDPs: Minimax Lower Bounds Revisited"

33 / 33 papers shown

Title
TW-CRL: Time-Weighted Contrastive Reward Learning for Efficient Inverse Reinforcement Learning Yuxuan Li Yicheng Gao Ning Yang Stephen Xia OffRL 53 0 0 08 Apr 2025
Optimistic Q-learning for average reward and episodic reinforcement learning Priyank Agrawal Shipra Agrawal 56 4 0 18 Jul 2024
Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization D. Tiapkin Evgenii Chzhen Gilles Stoltz 74 1 0 08 Jul 2024
Horizon-Free Regret for Linear Markov Decision Processes Zihan Zhang Jason D. Lee Yuxin Chen Simon S. Du 33 3 0 15 Mar 2024
The Effective Horizon Explains Deep RL Performance in Stochastic Environments Cassidy Laidlaw Banghua Zhu Stuart J. Russell Anca Dragan 41 2 0 13 Dec 2023
When is Agnostic Reinforcement Learning Statistically Tractable? Zeyu Jia Gene Li Alexander Rakhlin Ayush Sekhari Nathan Srebro OffRL 37 5 0 09 Oct 2023
Settling the Sample Complexity of Online Reinforcement Learning Zihan Zhang Yuxin Chen Jason D. Lee S. Du OffRL 98 22 0 25 Jul 2023
Towards Theoretical Understanding of Inverse Reinforcement Learning Alberto Maria Metelli Filippo Lazzati Marcello Restelli 31 13 0 25 Apr 2023
Improved Sample Complexity for Reward-free Reinforcement Learning under Low-rank MDPs Yuan Cheng Ruiquan Huang J. Yang Yitao Liang OffRL 41 8 0 20 Mar 2023
Fast Rates for Maximum Entropy Exploration D. Tiapkin Denis Belomestny Daniele Calandriello Eric Moulines Rémi Munos A. Naumov Pierre Perrault Yunhao Tang Michal Valko Pierre Menard 49 18 0 14 Mar 2023
Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both Worlds in Stochastic and Deterministic Environments Runlong Zhou Zihan Zhang S. Du 46 10 0 31 Jan 2023
Model-Free Reinforcement Learning with the Decision-Estimation Coefficient Dylan J. Foster Noah Golowich Jian Qian Alexander Rakhlin Ayush Sekhari OffRL 43 9 0 25 Nov 2022
Max-Min Off-Policy Actor-Critic Method Focusing on Worst-Case Robustness to Model Misspecification Takumi Tanabe Reimi Sato Kazuto Fukuchi Jun Sakuma Youhei Akimoto OffRL 27 9 0 07 Nov 2022
Bridging Distributional and Risk-sensitive Reinforcement Learning with Provable Regret Bounds Hao Liang Zhihui Luo 33 14 0 25 Oct 2022
Square-root regret bounds for continuous-time episodic Markov decision processes Xuefeng Gao X. Zhou 43 6 0 03 Oct 2022
Best Policy Identification in Linear MDPs Jerome Taupin Yassir Jedra Alexandre Proutiere 49 4 0 11 Aug 2022
Hindsight Learning for MDPs with Exogenous Inputs Sean R. Sinclair Felipe Vieira Frujeri Ching-An Cheng Luke Marshall Hugo Barbalho Jingling Li Jennifer Neville Ishai Menache Adith Swaminathan 18 23 0 13 Jul 2022
From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses D. Tiapkin Denis Belomestny Eric Moulines A. Naumov S. Samsonov Yunhao Tang Michal Valko Pierre Menard 34 17 0 16 May 2022
Branching Reinforcement Learning Yihan Du Wei Chen 32 0 0 16 Feb 2022
Nearly Optimal Policy Optimization with Stable at Any Time Guarantee Tianhao Wu Yunchang Yang Han Zhong Liwei Wang S. Du Jiantao Jiao 60 14 0 21 Dec 2021
Dueling RL: Reinforcement Learning with Trajectory Preferences Aldo Pacchiano Aadirupa Saha Jonathan Lee 38 82 0 08 Nov 2021
Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection Matteo Papini Andrea Tirinzoni Aldo Pacchiano Marcello Restelli A. Lazaric Matteo Pirotta 19 18 0 27 Oct 2021
Provable Hierarchy-Based Meta-Reinforcement Learning Kurtland Chua Qi Lei Jason D. Lee 22 5 0 18 Oct 2021
Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free Reinforcement Learning Gen Li Laixi Shi Yuxin Chen Yuejie Chi OffRL 49 51 0 09 Oct 2021
When Can We Learn General-Sum Markov Games with a Large Number of Players Sample-Efficiently? Ziang Song Song Mei Yu Bai 74 67 0 08 Oct 2021
A Reduction-Based Framework for Conservative Bandits and Reinforcement Learning Yunchang Yang Tianhao Wu Han Zhong Evrard Garcelon Matteo Pirotta A. Lazaric Liwei Wang S. Du OffRL 35 9 0 22 Jun 2021
Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning Tengyang Xie Nan Jiang Huan Wang Caiming Xiong Yu Bai OffRL OnRL 44 162 0 09 Jun 2021
Navigating to the Best Policy in Markov Decision Processes Aymen Al Marjani Aurélien Garivier Alexandre Proutiere 40 21 0 05 Jun 2021
UCB Momentum Q-learning: Correcting the bias without forgetting Pierre Menard O. D. Domingues Xuedong Shang Michal Valko 79 41 0 01 Mar 2021
Provably Efficient Algorithms for Multi-Objective Competitive RL Tiancheng Yu Yi Tian J.N. Zhang S. Sra 32 20 0 05 Feb 2021
Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms Chi Jin Qinghua Liu Sobhan Miryoosefi OffRL 40 215 0 01 Feb 2021
A Sharp Analysis of Model-based Reinforcement Learning with Self-Play Qinghua Liu Tiancheng Yu Yu Bai Chi Jin 34 121 0 04 Oct 2020
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model Gen Li Yuting Wei Yuejie Chi Yuxin Chen 39 125 0 26 May 2020