Navigating to the Best Policy in Markov Decision Processes

5 June 2021

Papers citing "Navigating to the Best Policy in Markov Decision Processes"

5 / 5 papers shown

Title
Gap-Dependent Bounds for Q-Learning using Reference-Advantage Decomposition Zhong Zheng Haochen Zhang Lingzhou Xue OffRL 78 2 0 10 Oct 2024
MCTS-GEB: Monte Carlo Tree Search is a Good E-graph Builder Guoliang He Zak Singh Eiko Yoneki 28 4 0 08 Mar 2023
Best Policy Identification in Linear MDPs Jerome Taupin Yassir Jedra Alexandre Proutière 41 3 0 11 Aug 2022
Gap-Dependent Unsupervised Exploration for Reinforcement Learning Jingfeng Wu Vladimir Braverman Lin F. Yang 30 12 0 11 Aug 2021
Task-Optimal Exploration in Linear Dynamical Systems Andrew Wagenmaker Max Simchowitz Kevin G. Jamieson 14 18 0 10 Feb 2021