Exploration-exploitation trade-off for continuous-time episodic reinforcement learning with linear-convex models

19 December 2021

Papers citing "Exploration-exploitation trade-off for continuous-time episodic reinforcement learning with linear-convex models"

16 / 16 papers shown

Title
Learning to steer with Brownian noise Stefan Ankirchner Sören Christensen Jan Kallsen Philip Le Borne Stefan Perko 24 0 0 04 Oct 2024
Exploratory Optimal Stopping: A Singular Control Formulation Jodi Dianetti Giorgio Ferrari Renyuan Xu 31 3 0 18 Aug 2024
$ε$ -Policy Gradient for Online Pricing Lukasz Szpruch Tanut Treetanthiploet Yufei Zhang OffRL 52 1 0 06 May 2024
Data-driven optimal stopping: A pure exploration analysis Soren Christensen Niklas Dexheimer C. Strauch 46 2 0 10 Dec 2023
Fast Policy Learning for Linear Quadratic Control with Entropy Regularization Xin Guo Xinyu Li Renyuan Xu 42 3 0 23 Nov 2023
Continuous-time q-learning for mean-field control problems Xiaoli Wei Xian Yu 29 8 0 28 Jun 2023
Policy Optimization for Continuous Reinforcement Learning Hanyang Zhao Wenpin Tang D. Yao OffRL 32 17 0 30 May 2023
Policy Gradient Converges to the Globally Optimal Policy for Nearly Linear-Quadratic Regulators Yin-Huan Han Meisam Razaviyayn Renyuan Xu 27 5 0 15 Mar 2023
Statistical Learning with Sublinear Regret of Propagator Models Eyal Neuman Yufei Zhang 40 7 0 12 Jan 2023
Square-root regret bounds for continuous-time episodic Markov decision processes Xuefeng Gao X. Zhou 43 6 0 03 Oct 2022
Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning Lukasz Szpruch Tanut Treetanthiploet Yufei Zhang 29 8 0 08 Aug 2022
Thompson Sampling Efficiently Learns to Control Diffusion Processes Mohamad Kazem Shirani Faradonbeh Mohamad Sadegh Shirani Faradonbeh Mohsen Bayati 11 9 0 20 Jun 2022
Logarithmic regret bounds for continuous-time average-reward Markov decision processes Xuefeng Gao X. Zhou 36 8 0 23 May 2022
Linear convergence of a policy gradient method for some finite horizon continuous time control problems C. Reisinger Wolfgang Stockinger Yufei Zhang 16 5 0 22 Mar 2022
Policy Gradient and Actor-Critic Learning in Continuous Time and Space: Theory and Algorithms Yanwei Jia X. Zhou OffRL 30 78 0 22 Nov 2021
Reinforcement learning for linear-convex models with jumps via stability analysis of feedback controls Xin Guo Anran Hu Yufei Zhang 19 24 0 19 Apr 2021