Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning

22 March 2017

Papers citing "Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning"

50 / 94 papers shown

Title
Automatic Reward Shaping from Confounded Offline Data Mingxuan Li Junzhe Zhang Elias Bareinboim OffRL OnRL 42 0 0 16 May 2025
Toward Efficient Exploration by Large Language Model Agents Dilip Arumugam Thomas L. Griffiths LLMAG 94 1 0 29 Apr 2025
Towards Optimal Differentially Private Regret Bounds in Linear MDPs Sharan Sahu 60 0 0 12 Apr 2025
Near-Optimal Sample Complexity for Iterated CVaR Reinforcement Learning with a Generative Model Zilong Deng Simon Khan Shaofeng Zou 64 0 0 11 Mar 2025
Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form Toshinori Kitamura Tadashi Kozuno Wataru Kumagai Kenta Hoshino Y. Hosoe Kazumi Kasaura Masashi Hamaya Paavo Parmas Yutaka Matsuo 77 1 0 29 Aug 2024
Learning to Steer Markovian Agents under Model Uncertainty Jiawei Huang Vinzenz Thoma Zebang Shen H. Nax Niao He 52 2 0 14 Jul 2024
Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization D. Tiapkin Evgenii Chzhen Gilles Stoltz 74 1 0 08 Jul 2024
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis Qining Zhang Honghao Wei Lei Ying OffRL 67 1 0 11 Jun 2024
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond Xutong Liu Siwei Wang Jinhang Zuo Han Zhong Xuchuang Wang Zhiyong Wang Shuai Li Mohammad Hajiesmaili J. C. Lui Wei Chen 85 1 0 03 Jun 2024
Differentially Private Reinforcement Learning with Self-Play Dan Qiao Yu Wang 43 0 0 11 Apr 2024
Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm Miao Lu Han Zhong Tong Zhang Jose H. Blanchet OffRL OOD 79 6 0 04 Apr 2024
TransAxx: Efficient Transformers with Approximate Computing Dimitrios Danopoulos Georgios Zervakis Dimitrios Soudris Jörg Henkel ViT 49 2 0 12 Feb 2024
Behind the Myth of Exploration in Policy Gradients Adrien Bolland Gaspard Lambrechts Damien Ernst 59 0 0 31 Jan 2024
A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees Toshinori Kitamura Tadashi Kozuno Masahiro Kato Yuki Ichihara Soichiro Nishimori Akiyoshi Sannai Sho Sonoda Wataru Kumagai Yutaka Matsuo 52 2 0 31 Jan 2024
Cascading Reinforcement Learning Yihan Du R. Srikant Wei Chen 19 0 0 17 Jan 2024
Dyadic Reinforcement Learning Shuangning Li L. Niell S. Choi Inbal Nahum-Shani Guy Shani Susan Murphy OffRL 28 2 0 15 Aug 2023
Settling the Sample Complexity of Online Reinforcement Learning Zihan Zhang Yuxin Chen Jason D. Lee S. Du OffRL 98 22 0 25 Jul 2023
Policy Finetuning in Reinforcement Learning via Design of Experiments using Offline Data Ruiqi Zhang Andrea Zanette OffRL OnRL 45 7 0 10 Jul 2023
Near-optimal Conservative Exploration in Reinforcement Learning under Episode-wise Constraints Donghao Li Ruiquan Huang Cong Shen Jing Yang 52 3 0 09 Jun 2023
Bayesian Reinforcement Learning with Limited Cognitive Load Dilip Arumugam Mark K. Ho Noah D. Goodman Benjamin Van Roy OffRL 39 8 0 05 May 2023
Restarted Bayesian Online Change-point Detection for Non-Stationary Markov Decision Processes Réda Alami Mohammed Mahfoud Eric Moulines 24 2 0 01 Apr 2023
Improved Sample Complexity for Reward-free Reinforcement Learning under Low-rank MDPs Yuan Cheng Ruiquan Huang J. Yang Yitao Liang OffRL 41 8 0 20 Mar 2023
Fast Rates for Maximum Entropy Exploration D. Tiapkin Denis Belomestny Daniele Calandriello Eric Moulines Rémi Munos A. Naumov Pierre Perrault Yunhao Tang Michal Valko Pierre Menard 51 18 0 14 Mar 2023
Reinforcement Learning with Function Approximation: From Linear to Nonlinear Jihao Long Jiequn Han 39 5 0 20 Feb 2023
Robust Knowledge Transfer in Tiered Reinforcement Learning Jiawei Huang Niao He OffRL 37 1 0 10 Feb 2023
Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both Worlds in Stochastic and Deterministic Environments Runlong Zhou Zihan Zhang S. Du 49 10 0 31 Jan 2023
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation Uri Sherman Tomer Koren Yishay Mansour 37 12 0 30 Jan 2023
On Rate-Distortion Theory in Capacity-Limited Cognition & Reinforcement Learning Dilip Arumugam Mark K. Ho Noah D. Goodman Benjamin Van Roy 36 4 0 30 Oct 2022
On the Power of Pre-training for Generalization in RL: Provable Benefits and Hardness Haotian Ye Xiaoyu Chen Liwei Wang S. Du OffRL 37 6 0 19 Oct 2022
Regret Minimization and Convergence to Equilibria in General-sum Markov Games Liad Erez Tal Lancewicki Uri Sherman Tomer Koren Yishay Mansour 51 25 0 28 Jul 2022
Provably Efficient Risk-Sensitive Reinforcement Learning: Iterated CVaR and Worst Path Yihan Du Siwei Wang Longbo Huang OOD 37 13 0 06 Jun 2022
Sample-Efficient Reinforcement Learning of Partially Observable Markov Games Qinghua Liu Csaba Szepesvári Chi Jin 45 20 0 02 Jun 2022
Offline Reinforcement Learning with Differential Privacy Dan Qiao Yu Wang OffRL 44 23 0 02 Jun 2022
Byzantine-Robust Online and Offline Distributed Reinforcement Learning Yiding Chen Xuezhou Zhang Kai Zhang Mengdi Wang Xiaojin Zhu OffRL 34 16 0 01 Jun 2022
Learning to Control Linear Systems can be Hard Anastasios Tsiamis Ingvar M. Ziemann M. Morari Nikolai Matni George J. Pappas 29 14 0 27 May 2022
Chain of Thought Imitation with Procedure Cloning Mengjiao Yang Dale Schuurmans Pieter Abbeel Ofir Nachum OffRL 40 30 0 22 May 2022
From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses D. Tiapkin Denis Belomestny Eric Moulines A. Naumov S. Samsonov Yunhao Tang Michal Valko Pierre Menard 34 17 0 16 May 2022
When Is Partially Observable Reinforcement Learning Not Scary? Qinghua Liu Alan Chung Csaba Szepesvári Chi Jin 22 94 0 19 Apr 2022
Horizon-Free Reinforcement Learning in Polynomial Time: the Power of Stationary Policies Zihan Zhang Xiangyang Ji S. Du 35 21 0 24 Mar 2022
Learn to Match with No Regret: Reinforcement Learning in Markov Matching Markets Yifei Min Tianhao Wang Ruitu Xu Zhaoran Wang Michael I. Jordan Zhuoran Yang 38 21 0 07 Mar 2022
Branching Reinforcement Learning Yihan Du Wei Chen 32 0 0 16 Feb 2022
Provably Efficient Causal Model-Based Reinforcement Learning for Systematic Generalization Mirco Mutti Ric De Santi Emanuele Rossi J. Calderón Michael M. Bronstein Marcello Restelli 38 14 0 14 Feb 2022
Sample-Efficient Reinforcement Learning with loglog(T) Switching Cost Dan Qiao Ming Yin Ming Min Yu Wang 43 28 0 13 Feb 2022
Exponential Family Model-Based Reinforcement Learning via Score Matching Gen Li Junbo Li Anmol Kabra Nathan Srebro Zhaoran Wang Zhuoran Yang 37 4 0 28 Dec 2021
Differentially Private Regret Minimization in Episodic Markov Decision Processes Sayak Ray Chowdhury Xingyu Zhou 29 21 0 20 Dec 2021
Recent Advances in Reinforcement Learning in Finance B. Hambly Renyuan Xu Huining Yang OffRL 34 168 0 08 Dec 2021
Dueling RL: Reinforcement Learning with Trajectory Preferences Aldo Pacchiano Aadirupa Saha Jonathan Lee 38 82 0 08 Nov 2021
Perturbational Complexity by Distribution Mismatch: A Systematic Analysis of Reinforcement Learning in Reproducing Kernel Hilbert Space Jihao Long Jiequn Han 34 6 0 05 Nov 2021
Settling the Horizon-Dependence of Sample Complexity in Reinforcement Learning Yuanzhi Li Ruosong Wang Lin F. Yang 32 20 0 01 Nov 2021
Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free Reinforcement Learning Gen Li Laixi Shi Yuxin Chen Yuejie Chi OffRL 49 51 0 09 Oct 2021