Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics

8 May 2020

Dmitry Vetrov

Papers citing "Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics"

32 / 32 papers shown

Title
Imagine Beyond! Distributionally Robust Auto-Encoding for State Space Coverage in Online Reinforcement Learning Nicolas Castanet Olivier Sigaud Sylvain Lamprier OffRL 83 0 0 23 May 2025
Closing the Intent-to-Behavior Gap via Fulfillment Priority Logic B. Mabsout Abdelrahman AbdelGawad R. Mancuso 69 1 0 04 Mar 2025
Hyperspherical Normalization for Scalable Deep Reinforcement Learning Hojoon Lee Youngdo Lee Takuma Seno Donghu Kim Peter Stone Jaegul Choo 137 3 0 21 Feb 2025
Efficient Active Imitation Learning with Random Network Distillation Emilien Biré Anthony Kobanda Ludovic Denoyer Rémy Portelas 65 2 0 04 Nov 2024
Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model Jing Zhang Linjiajie Fang Kexin Shi Wenjia Wang Bing-Yi Jing OffRL 111 0 0 27 Oct 2024
RAIN: Reinforcement Algorithms for Improving Numerical Weather and Climate Models Pritthijit Nath Henry Moss Emily Shuckburgh Mark Webb AI4Cl AI4CE 93 0 0 28 Aug 2024
Model-free reinforcement learning with noisy actions for automated experimental control in optics Lea Richtmann Viktoria-S. Schmiesing Dennis Wilken Jan Heine Aaron Tranter Avishek Anand Tobias J. Osborne M. Heurs 77 2 0 24 May 2024
CTD4 -- A Deep Continuous Distributional Actor-Critic Agent with a Kalman Fusion of Multiple Critics David Valencia Henry Williams Trevor Gee Bruce A MacDonaland Minas V. Liarokapis Minas Liarokapis OffRL 116 2 0 04 May 2024
Maxmin Q-learning: Controlling the Estimation Bias of Q-learning Qingfeng Lan Yangchen Pan Alona Fyshe Martha White 55 179 0 16 Feb 2020
Fully Parameterized Quantile Function for Distributional Reinforcement Learning Derek Yang Li Zhao Zichuan Lin Tao Qin Jiang Bian Tie-Yan Liu OOD OffRL 57 136 0 05 Nov 2019
Quantile QT-Opt for Risk-Aware Vision-Based Robotic Grasping Cristian Bodnar A. Li Karol Hausman P. Pastor Mrinal Kalakrishnan OffRL 42 51 0 01 Oct 2019
An Optimistic Perspective on Offline Reinforcement Learning Rishabh Agarwal Dale Schuurmans Mohammad Norouzi OffRL OnRL 60 69 0 10 Jul 2019
Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction Aviral Kumar Justin Fu George Tucker Sergey Levine OffRL OnRL 109 1,054 0 03 Jun 2019
Distributional Reinforcement Learning for Efficient Exploration B. Mavrin Shangtong Zhang Hengshuai Yao Linglong Kong Kaiwen Wu Yaoliang Yu OOD OffRL 47 87 0 13 May 2019
Soft Actor-Critic Algorithms and Applications Tuomas Haarnoja Aurick Zhou Kristian Hartikainen George Tucker Sehoon Ha ... Vikash Kumar Henry Zhu Abhishek Gupta Pieter Abbeel Sergey Levine 133 2,418 0 13 Dec 2018
Off-Policy Deep Reinforcement Learning without Exploration Scott Fujimoto David Meger Doina Precup OffRL BDL 198 1,604 0 07 Dec 2018
QUOTA: The Quantile Option Architecture for Reinforcement Learning Fengxiang Yang Zhun Zhong Zhiming Luo Sheng Lian Shaozi Li OffRL 45 29 0 05 Nov 2018
Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion Jacob Buckman Danijar Hafner George Tucker E. Brevdo Honglak Lee 82 331 0 04 Jul 2018
Implicit Quantile Networks for Distributional Reinforcement Learning Will Dabney Georg Ostrovski David Silver Rémi Munos OffRL 111 531 0 14 Jun 2018
Sequential Test for the Lowest Mean: From Thompson to Murphy Sampling E. Kaufmann Wouter M. Koolen Aurélien Garivier 50 27 0 04 Jun 2018
Distributed Distributional Deterministic Policy Gradients Gabriel Barth-Maron Matthew W. Hoffman David Budden Will Dabney Dan Horgan TB Dhruva Alistair Muldal N. Heess Timothy Lillicrap OffRL 84 480 0 23 Apr 2018
Simple random search provides a competitive approach to reinforcement learning Horia Mania Aurelia Guy Benjamin Recht 56 315 0 19 Mar 2018
Addressing Function Approximation Error in Actor-Critic Methods Scott Fujimoto H. V. Hoof David Meger OffRL 169 5,168 0 26 Feb 2018
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Tuomas Haarnoja Aurick Zhou Pieter Abbeel Sergey Levine 284 8,313 0 04 Jan 2018
Distributional Reinforcement Learning with Quantile Regression Will Dabney Mark Rowland Marc G. Bellemare Rémi Munos 90 758 0 27 Oct 2017
Rainbow: Combining Improvements in Deep Reinforcement Learning Matteo Hessel Joseph Modayil H. V. Hasselt Tom Schaul Georg Ostrovski Will Dabney Dan Horgan Bilal Piot M. G. Azar David Silver OffRL 107 2,260 0 06 Oct 2017
A Distributional Perspective on Reinforcement Learning Marc G. Bellemare Will Dabney Rémi Munos OffRL 93 1,500 0 21 Jul 2017
Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning Oron Anschel Nir Baram N. Shimkin 69 317 0 07 Nov 2016
OpenAI Gym Greg Brockman Vicki Cheung Ludwig Pettersson Jonas Schneider John Schulman Jie Tang Wojciech Zaremba OffRL ODL 204 5,073 0 05 Jun 2016
Deep Reinforcement Learning with Double Q-learning H. V. Hasselt A. Guez David Silver OffRL 156 7,623 0 22 Sep 2015
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves Ioannis Antonoglou Daan Wierstra Martin Riedmiller 114 12,201 0 19 Dec 2013
Estimating the Maximum Expected Value: An Analysis of (Nested) Cross Validation and the Maximum Sample Average H. V. Hasselt 58 28 0 28 Feb 2013