Cancellation-Free Regret Bounds for Lagrangian Approaches in Constrained
Markov Decision Processes

v1v2 (latest)

Cancellation-Free Regret Bounds for Lagrangian Approaches in Constrained Markov Decision Processes

12 June 2023

Giorgia Ramponi

ArXiv (abs)PDF HTML

Papers citing "Cancellation-Free Regret Bounds for Lagrangian Approaches in Constrained Markov Decision Processes"

12 / 12 papers shown

Title
Active Exploration via Experiment Design in Markov Chains Mojmír Mutný Tadeusz Janik Andreas Krause 79 16 0 29 Jun 2022
A Dual Approach to Constrained Markov Decision Processes with Entropy Regularization Donghao Ying Yuhao Ding Javad Lavaei 42 34 0 17 Oct 2021
Concave Utility Reinforcement Learning: the Mean-Field Game Viewpoint Matthieu Geist Julien Pérolat Mathieu Laurière Romuald Elie Sarah Perrin Olivier Bachem Rémi Munos Olivier Pietquin 81 65 0 07 Jun 2021
Learning Policies with Zero or Bounded Constraint Violation for Constrained MDPs Tao-Wen Liu Ruida Zhou D. Kalathil P. R. Kumar Chao Tian 70 84 0 04 Jun 2021
Responsive Safety in Reinforcement Learning by PID Lagrangian Methods Adam Stooke Joshua Achiam Pieter Abbeel 81 300 0 08 Jul 2020
Active Model Estimation in Markov Decision Processes Jean Tarbouriech S. Shekhar Matteo Pirotta Mohammad Ghavamzadeh A. Lazaric 69 25 0 06 Mar 2020
Optimistic Policy Optimization with Bandit Feedback Yonathan Efroni Lior Shani Aviv A. Rosenberg Shie Mannor 56 90 0 19 Feb 2020
Constrained Reinforcement Learning Has Zero Duality Gap Santiago Paternain Luiz F. O. Chamon Miguel Calvo-Fullana Alejandro Ribeiro 59 193 0 29 Oct 2019
Tight Regret Bounds for Model-Based Reinforcement Learning with Greedy Policies Yonathan Efroni Nadav Merlis Mohammad Ghavamzadeh Shie Mannor OffRL 102 68 0 27 May 2019
Active Exploration in Markov Decision Processes Jean Tarbouriech A. Lazaric 53 50 0 28 Feb 2019
Tighter Problem-Dependent Regret Bounds in Reinforcement Learning without Domain Knowledge using Value Function Bounds Andrea Zanette Emma Brunskill OffRL 106 276 0 01 Jan 2019
Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning Christoph Dann Tor Lattimore Emma Brunskill 76 311 0 22 Mar 2017