Exploration-Exploitation Trade-off in Reinforcement Learning on Online Markov Decision Processes with Global Concave Rewards

15 May 2019

Papers citing "Exploration-Exploitation Trade-off in Reinforcement Learning on Online Markov Decision Processes with Global Concave Rewards"

5 / 5 papers shown

Title
Fast Rates for Maximum Entropy Exploration D. Tiapkin Denis Belomestny Daniele Calandriello Eric Moulines Rémi Munos A. Naumov Pierre Perrault Yunhao Tang Michal Valko Pierre Menard 58 18 0 14 Mar 2023
Challenging Common Assumptions in Convex Reinforcement Learning Mirco Mutti Ric De Santi Piersilvio De Bartolomeis Marcello Restelli OffRL 39 21 0 03 Feb 2022
A Provably Efficient Sample Collection Strategy for Reinforcement Learning Jean Tarbouriech Matteo Pirotta Michal Valko A. Lazaric OffRL 35 16 0 13 Jul 2020
Active Model Estimation in Markov Decision Processes Jean Tarbouriech S. Shekhar Matteo Pirotta Mohammad Ghavamzadeh A. Lazaric 26 24 0 06 Mar 2020
Resourceful Contextual Bandits Ashwinkumar Badanidiyuru John Langford Aleksandrs Slivkins 49 118 0 27 Feb 2014