Thinking Fast and Slow with Deep Learning and Tree Search

23 May 2017

Papers citing "Thinking Fast and Slow with Deep Learning and Tree Search"

15 / 65 papers shown

Title
Dota 2 with Large Scale Deep Reinforcement Learning OpenAI OpenAI : Christopher Berner Greg Brockman Brooke Chan ... Szymon Sidor Ilya Sutskever Jie Tang Filip Wolski Susan Zhang GNN VLM CLL AI4CE LRM 41 1,795 0 13 Dec 2019
Combining Q-Learning and Search with Amortized Value Estimates Jessica B. Hamrick V. Bapst Alvaro Sanchez-Gonzalez Tobias Pfaff T. Weber Lars Buesing Peter W. Battaglia OffRL 27 47 0 05 Dec 2019
DeepLine: AutoML Tool for Pipelines Generation using Deep Reinforcement Learning and Hierarchical Actions Filtering Yuval Heffetz Roman Vainshtein Gilad Katz Lior Rokach 17 39 0 31 Oct 2019
On-Policy Robot Imitation Learning from a Converging Supervisor Ashwin Balakrishna Brijen Thananjeyan Jonathan Lee Felix Li Arsh Zahed Joseph E. Gonzalez Ken Goldberg 30 17 0 08 Jul 2019
Foundations of Digital Archæoludology C. Browne Dennis J. N. J. Soemers Éric Piette Matthew Stephenson Michael Conrad ... Abdallah Saffidine Ulrich Schädler Jorge Nuno Silva A. Voogt M. Winands AI4CE 6 8 0 31 May 2019
Towards Finding Longer Proofs Zsolt Zombori Adrián Csiszárik Henryk Michalewski C. Kaliszyk Josef Urban OffRL LRM 29 15 0 30 May 2019
Policy Gradient Search: Online Planning and Expert Iteration without Search Trees Thomas W. Anthony Robert Nishihara Philipp Moritz Tim Salimans John Schulman 20 30 0 07 Apr 2019
Sample-Efficient Model-Free Reinforcement Learning with Off-Policy Critics Denis Steckelmacher Hélène Plisnier D. Roijers A. Nowé OffRL 23 17 0 11 Mar 2019
On the potential for open-endedness in neural networks N. Guttenberg N. Virgo A. Penn 21 10 0 12 Dec 2018
Scalable agent alignment via reward modeling: a research direction Jan Leike David M. Krueger Tom Everitt Miljan Martic Vishal Maini Shane Legg 34 396 0 19 Nov 2018
Preparing for the Unexpected: Diversity Improves Planning Resilience in Evolutionary Algorithms Thomas Gabor Lenz Belzner Thomy Phan Kyrill Schmid 14 14 0 30 Oct 2018
Supervising strong learners by amplifying weak experts Paul Christiano Buck Shlegeris Dario Amodei 19 114 0 19 Oct 2018
Dual Policy Iteration Wen Sun Geoffrey J. Gordon Byron Boots J. Andrew Bagnell OffRL 10 56 0 28 May 2018
Feedback-Based Tree Search for Reinforcement Learning Daniel R. Jiang E. Ekwedike Han Liu 19 29 0 15 May 2018
Learning to Search with MCTSnets A. Guez T. Weber Ioannis Antonoglou Karen Simonyan Oriol Vinyals Daan Wierstra Rémi Munos David Silver 23 85 0 13 Feb 2018