v1v2v3 (latest)

Planning and Learning Using Adaptive Entropy Tree Search

12 February 2021

Papers citing "Planning and Learning Using Adaptive Entropy Tree Search"

28 / 28 papers shown

Title
Mastering Atari Games with Limited Data Weirui Ye Shao-Wei Liu Thanard Kurutach Pieter Abbeel Yang Gao VLM 114 240 0 30 Oct 2021
On the role of planning in model-based deep reinforcement learning Jessica B. Hamrick A. Friesen Feryal M. P. Behbahani A. Guez Fabio Viola Sims Witherspoon Thomas W. Anthony Lars Buesing Petar Velickovic T. Weber OffRL 79 66 0 08 Nov 2020
Monte-Carlo Tree Search as Regularized Policy Optimization Jean-Bastien Grill Florent Altché Yunhao Tang Thomas Hubert Michal Valko Ioannis Antonoglou Rémi Munos 97 75 0 24 Jul 2020
Convex Regularization in Monte-Carlo Tree Search Tuan Dam Carlo DÉramo Jan Peters Joni Pajarinen OffRL 53 11 0 01 Jul 2020
Array Programming with NumPy Charles R. Harris K. Millman S. Walt R. Gommers Pauli Virtanen ... Tyler Reddy Warren Weckesser Hameer Abbasi C. Gohlke T. Oliphant 156 14,986 0 18 Jun 2020
Agent57: Outperforming the Atari Human Benchmark Adria Puigdomenech Badia Bilal Piot Steven Kapturowski Pablo Sprechmann Alex Vitvitskyi Daniel Guo Charles Blundell OffRL 80 521 0 30 Mar 2020
Uncertainty-sensitive Learning and Planning with Ensembles Piotr Milo's Lukasz Kuciñski K. Czechowski Piotr Kozakowski Maciek Klimek OffRL 49 8 0 19 Dec 2019
Combining Q-Learning and Search with Amortized Value Estimates Jessica B. Hamrick V. Bapst Alvaro Sanchez-Gonzalez Tobias Pfaff T. Weber Lars Buesing Peter W. Battaglia OffRL 73 48 0 05 Dec 2019
Dream to Control: Learning Behaviors by Latent Imagination Danijar Hafner Timothy Lillicrap Jimmy Ba Mohammad Norouzi VLM 126 1,371 0 03 Dec 2019
If MaxEnt RL is the Answer, What is the Question? Benjamin Eysenbach Sergey Levine 66 59 0 04 Oct 2019
Model-Based Reinforcement Learning for Atari Lukasz Kaiser Mohammad Babaeizadeh Piotr Milos B. Osinski R. Campbell ... Sergey Levine Afroz Mohiuddin Ryan Sepassi George Tucker Henryk Michalewski OffRL 135 867 0 01 Mar 2019
Dopamine: A Research Framework for Deep Reinforcement Learning Pablo Samuel Castro Subhodeep Moitra Carles Gelada Saurabh Kumar Marc G. Bellemare OffRL 74 278 0 14 Dec 2018
Soft Actor-Critic Algorithms and Applications Tuomas Haarnoja Aurick Zhou Kristian Hartikainen George Tucker Sehoon Ha ... Vikash Kumar Henry Zhu Abhishek Gupta Pieter Abbeel Sergey Levine 143 2,449 0 13 Dec 2018
Understanding the impact of entropy on policy optimization Zafarali Ahmed Nicolas Le Roux Mohammad Norouzi Dale Schuurmans 73 237 0 27 Nov 2018
Machine Learning for Combinatorial Optimization: a Methodological Tour d'Horizon Yoshua Bengio Andrea Lodi Antoine Prouvost 155 1,391 0 15 Nov 2018
Recurrent World Models Facilitate Policy Evolution David R Ha Jürgen Schmidhuber SyDa TPM 121 953 0 04 Sep 2018
Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review Sergey Levine AI4CE BDL 91 674 0 02 May 2018
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Tuomas Haarnoja Aurick Zhou Pieter Abbeel Sergey Levine 317 8,396 0 04 Jan 2018
Inverse Reward Design Dylan Hadfield-Menell S. Milli Pieter Abbeel Stuart J. Russell Anca Dragan 81 399 0 08 Nov 2017
Rainbow: Combining Improvements in Deep Reinforcement Learning Matteo Hessel Joseph Modayil H. V. Hasselt Tom Schaul Georg Ostrovski Will Dabney Dan Horgan Bilal Piot M. G. Azar David Silver OffRL 107 2,270 0 06 Oct 2017
Sparse Markov Decision Processes with Causal Sparse Tsallis Entropy Regularization for Reinforcement Learning Kyungjae Lee Sungjoon Choi Songhwai Oh 53 68 0 19 Sep 2017
Bridging the Gap Between Value and Policy Based Reinforcement Learning Ofir Nachum Mohammad Norouzi Kelvin Xu Dale Schuurmans 169 474 0 28 Feb 2017
Reinforcement Learning with Deep Energy-Based Policies Tuomas Haarnoja Haoran Tang Pieter Abbeel Sergey Levine 113 1,342 0 27 Feb 2017
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 422 10,526 0 21 Jul 2016
OpenAI Gym Greg Brockman Vicki Cheung Ludwig Pettersson Jonas Schneider John Schulman Jie Tang Wojciech Zaremba OffRL ODL 223 5,085 0 05 Jun 2016
TensorFlow: A system for large-scale machine learning Martín Abadi P. Barham Jianmin Chen Zhiwen Chen Andy Davis ... Vijay Vasudevan Pete Warden Martin Wicke Yuan Yu Xiaoqiang Zhang GNN AI4CE 433 18,361 0 27 May 2016
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 2.0K 150,312 0 22 Dec 2014
The Arcade Learning Environment: An Evaluation Platform for General Agents Marc G. Bellemare Yavar Naddaf J. Veness Michael Bowling 120 3,020 0 19 Jul 2012