Parametric Return Density Estimation for Reinforcement Learning

Parametric Return Density Estimation for Reinforcement Learning

15 March 2012

Tetsuro Morimura

Masashi Sugiyama

Hirotaka Hachiya

Toshiyuki Tanaka

Papers citing "Parametric Return Density Estimation for Reinforcement Learning"

12 / 12 papers shown

Title
RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes Kyle Stachowicz Sergey Levine 17 6 0 07 May 2024
Off-policy Distributional Q( $λ$ ): Distributional RL without Importance Sampling Yunhao Tang Mark Rowland Rémi Munos Bernardo Avila-Pires Will Dabney OffRL 10 1 0 08 Feb 2024
Distributional Offline Policy Evaluation with Predictive Error Guarantees Runzhe Wu Masatoshi Uehara Wen Sun OffRL 38 13 0 19 Feb 2023
Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective Reinforcement Learning Conor F. Hayes Mathieu Reymond D. Roijers Enda Howley Patrick Mannion 24 4 0 23 Nov 2022
Revisiting Gaussian mixture critics in off-policy reinforcement learning: a sample-based approach Bobak Shahriari A. Abdolmaleki Arunkumar Byravan A. Friesen Siqi Liu Jost Tobias Springenberg N. Heess Matthew W. Hoffman Martin Riedmiller OffRL 46 27 0 21 Apr 2022
Exponential Bellman Equation and Improved Regret Bounds for Risk-Sensitive Reinforcement Learning Yingjie Fei Zhuoran Yang Yudong Chen Zhaoran Wang 41 46 0 06 Nov 2021
Enabling risk-aware Reinforcement Learning for medical interventions through uncertainty decomposition Paul Festor Giulia Luise Matthieu Komorowski A. Faisal UD OffRL 18 10 0 16 Sep 2021
Universal Off-Policy Evaluation Yash Chandak S. Niekum Bruno C. da Silva Erik Learned-Miller Emma Brunskill Philip S. Thomas OffRL ELM 32 52 0 26 Apr 2021
An Information-Theoretic Perspective on Credit Assignment in Reinforcement Learning Dilip Arumugam Peter Henderson Pierre-Luc Bacon 24 17 0 10 Mar 2021
Worst Cases Policy Gradients Yichuan Tang Jian Zhang Ruslan Salakhutdinov 15 75 0 09 Nov 2019
Exploration by Distributional Reinforcement Learning Yunhao Tang Shipra Agrawal OOD 41 30 0 04 May 2018
A Greedy Approach to Adapting the Trace Parameter for Temporal Difference Learning Martha White Adam White 11 47 0 02 Jul 2016