Policy Optimization for Stochastic Shortest Path

7 February 2022

Papers citing "Policy Optimization for Stochastic Shortest Path"

25 / 25 papers shown

Title
Nearly Optimal Policy Optimization with Stable at Any Time Guarantee Tianhao Wu Yunchang Yang Han Zhong Liwei Wang S. Du Jiantao Jiao 82 14 0 21 Dec 2021
Improved No-Regret Algorithms for Stochastic Shortest Path with Linear MDP Liyu Chen Rahul Jain Haipeng Luo 60 14 0 18 Dec 2021
Improved Regret Analysis for Variance-Adaptive Linear Bandits and Horizon-Free Linear Mixture MDPs Yeoneung Kim Insoon Yang Kwang-Sung Jun 61 37 0 05 Nov 2021
Learning Stochastic Shortest Path with Linear Function Approximation Steffen Czolbe Jiafan He Adrian Dalca Quanquan Gu 61 30 0 25 Oct 2021
Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses Haipeng Luo Chen-Yu Wei Chung-Wei Lee 74 45 0 18 Jul 2021
Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms for Stochastic Shortest Path Liyu Chen Mehdi Jafarnia-Jahromi R. Jain Haipeng Luo 50 25 0 15 Jun 2021
Online Learning for Stochastic Shortest Path Model via Posterior Sampling Mehdi Jafarnia-Jahromi Liyu Chen Rahul Jain Haipeng Luo OffRL 100 18 0 09 Jun 2021
Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret Jean Tarbouriech Runlong Zhou S. Du Matteo Pirotta M. Valko A. Lazaric 93 36 0 22 Apr 2021
Minimax Regret for Stochastic Shortest Path Alon Cohen Yonathan Efroni Yishay Mansour Aviv A. Rosenberg 53 28 0 24 Mar 2021
Finding the Stochastic Shortest Path with Low Regret: The Adversarial Cost and Unknown Transition Case Liyu Chen Haipeng Luo 64 31 0 10 Feb 2021
Impossible Tuning Made Possible: A New Expert Algorithm and Its Applications Liyu Chen Haipeng Luo Chen-Yu Wei 85 44 0 01 Feb 2021
Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes Dongruo Zhou Quanquan Gu Csaba Szepesvári 68 207 0 15 Dec 2020
Minimax Regret for Stochastic Shortest Path with Adversarial Costs and Known Transition Liyu Chen Haipeng Luo Chen-Yu Wei 58 32 0 07 Dec 2020
Dynamic Regret of Policy Optimization in Non-stationary Environments Yingjie Fei Zhuoran Yang Zhaoran Wang Qiaomin Xie 69 55 0 30 Jun 2020
Stochastic Shortest Path with Adversarially Changing Costs Aviv A. Rosenberg Yishay Mansour AAML 66 33 0 20 Jun 2020
Near-optimal Regret Bounds for Stochastic Shortest Path Alon Cohen Haim Kaplan Yishay Mansour Aviv A. Rosenberg 55 55 0 23 Feb 2020
Optimistic Policy Optimization with Bandit Feedback Yonathan Efroni Lior Shani Aviv A. Rosenberg Shie Mannor 48 90 0 19 Feb 2020
Provably Efficient Exploration in Policy Optimization Qi Cai Zhuoran Yang Chi Jin Zhaoran Wang 51 281 0 12 Dec 2019
No-Regret Exploration in Goal-Oriented Reinforcement Learning Jean Tarbouriech Evrard Garcelon Michal Valko Matteo Pirotta A. Lazaric 63 46 0 07 Dec 2019
Introduction to Online Convex Optimization Elad Hazan OffRL 165 1,928 0 07 Sep 2019
Neural Policy Gradient Methods: Global Optimality and Rates of Convergence Lingxiao Wang Qi Cai Zhuoran Yang Zhaoran Wang 80 241 0 29 Aug 2019
More Adaptive Algorithms for Adversarial Bandits Chen-Yu Wei Haipeng Luo 126 182 0 10 Jan 2018
Minimax Regret Bounds for Reinforcement Learning M. G. Azar Ian Osband Rémi Munos 83 774 0 16 Mar 2017
Trust Region Policy Optimization John Schulman Sergey Levine Philipp Moritz Michael I. Jordan Pieter Abbeel 277 6,767 0 19 Feb 2015
PAC Bounds for Discounted MDPs Tor Lattimore Marcus Hutter 86 189 0 17 Feb 2012