Title
Evaluating the Rainbow DQN Agent in Hanabi with Unseen Partners Rodrigo Canaan Xianbo Gao Youjin Chung Julian Togelius Andy Nealen Stefan Menzel 47 4 0 28 Apr 2020
First return, then explore Adrien Ecoffet Joost Huizinga Joel Lehman Kenneth O. Stanley Jeff Clune 108 365 0 27 Apr 2020
Reinforcement Learning Generalization with Surprise Minimization Jerry Zikun Chen OOD 94 19 0 26 Apr 2020
Qd-tree: Learning Data Layouts for Big Data Analytics Zongheng Yang Badrish Chandramouli Chi Wang J. Gehrke Yinan Li U. F. Minhas P. Larson Donald Kossmann R. Acharya 70 94 0 22 Apr 2020
Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning Shangtong Zhang Bo Liu Shimon Whiteson 110 38 0 22 Apr 2020
Should I tear down this wall? Optimizing social metrics by evaluating novel actions János Kramár Neil C. Rabinowitz Tom Eccles Andrea Tacchetti 22 6 0 16 Apr 2020
CURL: Contrastive Unsupervised Representations for Reinforcement Learning A. Srinivas Michael Laskin Pieter Abbeel SSL DRL OffRL 148 1,097 0 08 Apr 2020
Adaptive Transformers in RL Shakti Kumar Jerrod Parker Panteha Naderian OffRL AI4CE 44 13 0 08 Apr 2020
Benchmarking End-to-End Behavioural Cloning on Video Games Anssi Kanervisto J. Pussinen Ville Hautamaki OffRL 65 24 0 02 Apr 2020
Action Space Shaping in Deep Reinforcement Learning Anssi Kanervisto Christian Scheller Ville Hautamaki 80 84 0 02 Apr 2020
Obstacle Tower Without Human Demonstrations: How Far a Deep Feed-Forward Network Goes with Reinforcement Learning Marco Pleines J. Jitsev Mike Preuss Frank Zimmer 49 2 0 01 Apr 2020
Fiber: A Platform for Efficient Development and Distributed Training for Reinforcement Learning and Population-Based Methods Jiale Zhi Rui Wang Jeff Clune Kenneth O. Stanley OffRL 72 12 0 25 Mar 2020
An empirical investigation of the challenges of real-world reinforcement learning Gabriel Dulac-Arnold Nir Levine D. Mankowitz Jerry Li Cosmin Paduraru Sven Gowal Todd Hester OffRL 105 125 0 24 Mar 2020
Applications of Deep Learning for Ill-Posed Inverse Problems Within Optical Tomography A. Peace MedIm 27 0 0 21 Mar 2020
PFPN: Continuous Control of Physically Simulated Characters using Particle Filtering Policy Network Pei Xu Ioannis Karamouzas 14 3 0 16 Mar 2020
Optimizing Medical Treatment for Sepsis in Intensive Care: from Reinforcement Learning to Pre-Trial Evaluation Luchen Li I. Albert-Smet Aldo A. Faisal OffRL 65 10 0 13 Mar 2020
Taylor Expansion Policy Optimization Yunhao Tang Michal Valko Rémi Munos OffRL 65 14 0 13 Mar 2020
Sample Efficient Reinforcement Learning through Learning from Demonstrations in Minecraft Christian Scheller Yanick Schraner Manfred Vogel 84 27 0 12 Mar 2020
Finding online neural update rules by learning to remember Karol Gregor CLL 78 6 0 06 Mar 2020
MVP: Unified Motion and Visual Self-Supervised Learning for Large-Scale Robotic Navigation Marvin Chancán Michael Milford SSL 85 8 0 02 Mar 2020
Environment-agnostic Multitask Learning for Natural Language Grounded Navigation Xinze Wang Vihan Jain Eugene Ie William Yang Wang Zornitsa Kozareva Sujith Ravi LM&Ro 131 64 0 01 Mar 2020
Fully Asynchronous Policy Evaluation in Distributed Reinforcement Learning over Networks Xingyu Sha Jiaqi Zhang Keyou You Kai Zhang Tamer Basar OffRL 66 24 0 01 Mar 2020
A Self-Tuning Actor-Critic Algorithm Tom Zahavy Zhongwen Xu Vivek Veeriah Matteo Hessel Junhyuk Oh H. V. Hasselt David Silver Satinder Singh 109 13 0 28 Feb 2020
On Catastrophic Interference in Atari 2600 Games W. Fedus Dibya Ghosh John D. Martin Marc G. Bellemare Yoshua Bengio Hugo Larochelle 84 27 0 28 Feb 2020
Towards Modular Algorithm Induction Daniel A. Abolafia Rishabh Singh Manzil Zaheer Charles Sutton 43 2 0 27 Feb 2020
RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated Environments Roberta Raileanu Tim Rocktaschel 88 174 0 27 Feb 2020
Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games Edward Hughes Thomas W. Anthony Tom Eccles Joel Z Leibo David Balduzzi Yoram Bachrach 92 21 0 27 Feb 2020
Rewriting History with Inverse RL: Hindsight Inference for Policy Improvement Benjamin Eysenbach Xinyang Geng Sergey Levine Ruslan Salakhutdinov OffRL 73 87 0 25 Feb 2020
From Poincaré Recurrence to Convergence in Imperfect Information Games: Finding Equilibrium via Regularization Julien Perolat Rémi Munos Jean-Baptiste Lespiau Shayegan Omidshafiei Mark Rowland ... David Balduzzi Bart De Vylder Georgios Piliouras Marc Lanctot K. Tuyls 84 85 0 19 Feb 2020
Value-driven Hindsight Modelling A. Guez Fabio Viola T. Weber Lars Buesing Steven Kapturowski Doina Precup David Silver N. Heess OffRL 92 12 0 19 Feb 2020
Adaptive Experience Selection for Policy Gradient S. Mohamad Giovanni Montana 106 0 0 17 Feb 2020
Never Give Up: Learning Directed Exploration Strategies Adria Puigdomenech Badia Pablo Sprechmann Alex Vitvitskyi Daniel Guo Bilal Piot ... O. Tieleman Martín Arjovsky Alexander Pritzel Andew Bolt Charles Blundell 83 301 0 14 Feb 2020
Hoplite: Efficient and Fault-Tolerant Collective Communication for Task-Based Distributed Systems Siyuan Zhuang Zhuohan Li Danyang Zhuo Stephanie Wang Eric Liang Robert Nishihara Philipp Moritz Ion Stoica 40 24 0 13 Feb 2020
Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills Victor Campos Alexander R. Trott Caiming Xiong R. Socher Xavier Giró-i-Nieto Jordi Torres OffRL 101 156 0 10 Feb 2020
Causally Correct Partial Models for Reinforcement Learning Danilo Jimenez Rezende Ivo Danihelka George Papamakarios Nan Rosemary Ke Ray Jiang ... Jane X. Wang Jovana Mitrović F. Besse Ioannis Antonoglou Lars Buesing AI4TS 113 34 0 07 Feb 2020
Provably Efficient Online Hyperparameter Optimization with Population-Based Bandits Jack Parker-Holder Vu Nguyen Stephen J. Roberts OffRL 161 86 0 06 Feb 2020
Social diversity and social preferences in mixed-motive reinforcement learning Kevin R. McKee I. Gemp Brian McWilliams Edgar A. Duénez-Guzmán Edward Hughes Joel Z Leibo 97 85 0 06 Feb 2020
Finite-Sample Analysis of Stochastic Approximation Using Smooth Convex Envelopes Zaiwei Chen S. T. Maguluri Sanjay Shakkottai Karthikeyan Shanmugam 144 33 0 03 Feb 2020
Towards the Systematic Reporting of the Energy and Carbon Footprints of Machine Learning Peter Henderson Jie Hu Joshua Romoff Emma Brunskill Dan Jurafsky Joelle Pineau 108 459 0 31 Jan 2020
Towards Learning Multi-agent Negotiations via Self-Play Yichuan Tang 72 33 0 28 Jan 2020
Rotation, Translation, and Cropping for Zero-Shot Generalization Chang Ye Ahmed Khalifa Philip Bontrager Julian Togelius 102 38 0 27 Jan 2020
Silly rules improve the capacity of agents to learn stable enforcement and compliance behaviors Raphael Köster Dylan Hadfield-Menell Gillian K. Hadfield Joel Z Leibo 68 10 0 25 Jan 2020
Q-Learning in enormous action spaces via amortized approximate maximization T. Wiele David Warde-Farley A. Mnih Volodymyr Mnih 78 60 0 22 Jan 2020
Gradient Surgery for Multi-Task Learning Tianhe Yu Saurabh Kumar Abhishek Gupta Sergey Levine Karol Hausman Chelsea Finn 200 1,238 0 19 Jan 2020
FRESH: Interactive Reward Shaping in High-Dimensional State Spaces using Human Feedback Baicen Xiao Qifan Lu Bhaskar Ramasubramanian Andrew Clark L. Bushnell Radha Poovendran 78 25 0 19 Jan 2020
Algorithms in Multi-Agent Systems: A Holistic Perspective from Reinforcement Learning and Game Theory Yunlong Lu Kai Yan AI4CE 172 13 0 17 Jan 2020
Population-Guided Parallel Policy Search for Reinforcement Learning Whiyoung Jung Giseung Park Y. Sung OffRL 72 38 0 09 Jan 2020
Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors Jingliang Duan Yang Guan Shengbo Eben Li Yangang Ren B. Cheng OffRL 90 185 0 09 Jan 2020
A Survey of Deep Reinforcement Learning in Video Games Kun Shao Zhentao Tang Yuanheng Zhu Nannan Li Dongbin Zhao OffRL AI4TS 135 193 0 23 Dec 2019
Direct and indirect reinforcement learning Yang Guan Shengbo Eben Li Jingliang Duan Jie Li Yangang Ren Qi Sun B. Cheng OffRL 75 34 0 23 Dec 2019