(More) Efficient Reinforcement Learning via Posterior Sampling

4 June 2013

Papers citing "(More) Efficient Reinforcement Learning via Posterior Sampling"

18 / 118 papers shown

Title
Efficient Bias-Span-Constrained Exploration-Exploitation in Reinforcement Learning Ronan Fruit Matteo Pirotta A. Lazaric R. Ortner 27 115 0 12 Feb 2018
Coordinated Exploration in Concurrent Reinforcement Learning Maria Dimakopoulou Benjamin Van Roy 37 40 0 05 Feb 2018
The Uncertainty Bellman Equation and Exploration Brendan O'Donoghue Ian Osband Rémi Munos Volodymyr Mnih 38 186 0 15 Sep 2017
On Optimistic versus Randomized Exploration in Reinforcement Learning Ian Osband Benjamin Van Roy 13 10 0 13 Jun 2017
Deep Exploration via Randomized Value Functions Ian Osband Benjamin Van Roy Daniel Russo Zheng Wen 41 299 0 22 Mar 2017
Minimax Regret Bounds for Reinforcement Learning M. G. Azar Ian Osband Rémi Munos 21 763 0 16 Mar 2017
Nonparametric General Reinforcement Learning Jan Leike OffRL 43 26 0 28 Nov 2016
RL $^2$ : Fast Reinforcement Learning via Slow Reinforcement Learning Yan Duan John Schulman Xi Chen Peter L. Bartlett Ilya Sutskever Pieter Abbeel OffRL 35 1,010 0 09 Nov 2016
BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems Zachary Chase Lipton Xiujun Li Jianfeng Gao Lihong Li Faisal Ahmed Li Deng 40 6 0 17 Aug 2016
On Lower Bounds for Regret in Reinforcement Learning Ian Osband Benjamin Van Roy 27 101 0 09 Aug 2016
Why is Posterior Sampling Better than Optimism for Reinforcement Learning? Ian Osband Benjamin Van Roy BDL 24 255 0 01 Jul 2016
Thompson Sampling is Asymptotically Optimal in General Environments Jan Leike Tor Lattimore Laurent Orseau Marcus Hutter 12 39 0 25 Feb 2016
Angrier Birds: Bayesian reinforcement learning Imanol Arrieta-Ibarra Bernardo Ramos Lars Roemheld 12 1 0 06 Jan 2016
A Survey of Online Experiment Design with the Stochastic Multi-Armed Bandit Giuseppe Burtini Jason L. Loeppky Ramon Lawrence 41 119 0 02 Oct 2015
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit Problem with Multiple Plays Junpei Komiyama Junya Honda Hiroshi Nakagawa 27 134 0 02 Jun 2015
Bayesian Optimal Control of Smoothly Parameterized Systems: The Lazy Posterior Sampling Algorithm Yasin Abbasi-Yadkori Csaba Szepesvári 38 19 0 16 Jun 2014
Near-optimal Reinforcement Learning in Factored MDPs Ian Osband Benjamin Van Roy 47 120 0 15 Mar 2014
Generalization and Exploration via Randomized Value Functions Ian Osband Benjamin Van Roy Zheng Wen 27 311 0 04 Feb 2014