Title
Brax -- A Differentiable Physics Engine for Large Scale Rigid Body Simulation C. Freeman Erik Frey Anton Raichuk Sertan Girgin Igor Mordatch Olivier Bachem 120 380 0 24 Jun 2021
Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation Yunhao Tang Tadashi Kozuno Mark Rowland Rémi Munos Michal Valko OffRL 136 9 0 24 Jun 2021
Finite-Sample Analysis of Off-Policy TD-Learning via Generalized Bellman Operators Zaiwei Chen S. T. Maguluri Sanjay Shakkottai Karthikeyan Shanmugam OffRL 83 13 0 24 Jun 2021
Emphatic Algorithms for Deep Reinforcement Learning Ray Jiang Tom Zahavy Zhongwen Xu Adam White Matteo Hessel Charles Blundell Hado van Hasselt OffRL 77 19 0 21 Jun 2021
Scalable Safety-Critical Policy Evaluation with Accelerated Rare Event Sampling Mengdi Xu Peide Huang Fengpei Li Jiacheng Zhu Xuewei Qi K. Oguchi Zhiyuan Huang Henry Lam Ding Zhao 61 4 0 19 Jun 2021
Proper Value Equivalence Christopher Grimm André Barreto Gregory Farquhar David Silver Satinder Singh OffRL 77 35 0 18 Jun 2021
Multi-Task Learning for User Engagement and Adoption in Live Video Streaming Events Stefanos Antaris Dimitrios Rafailidis Romina Arriaza OffRL 36 0 0 18 Jun 2021
MADE: Exploration via Maximizing Deviation from Explored Regions Tianjun Zhang Paria Rashidinejad Jiantao Jiao Yuandong Tian Joseph E. Gonzalez Stuart J. Russell OffRL 100 44 0 18 Jun 2021
A learning agent that acquires social norms from public sanctions in decentralized multi-agent settings Eugene Vinitsky Raphael Köster J. Agapiou Edgar A. Duénez-Guzmán A. Vezhnevets Joel Z Leibo 83 41 0 16 Jun 2021
Towards Automatic Actor-Critic Solutions to Continuous Control J. E. Grigsby Jinsu Yoo Yanjun Qi OffRL 78 6 0 16 Jun 2021
Deep Reinforcement Learning for Conservation Decisions Marcus Lapeyrolerie Melissa S. Chapman Kari E. A. Norman C. Boettiger OffRL 124 18 0 15 Jun 2021
Going Beyond Linear Transformers with Recurrent Fast Weight Programmers Kazuki Irie Imanol Schlag Róbert Csordás Jürgen Schmidhuber 118 64 0 11 Jun 2021
GDI: Rethinking What Makes Reinforcement Learning Different From Supervised Learning Jiajun Fan Changnan Xiao Yue Huang OffRL 93 10 0 11 Jun 2021
Taylor Expansion of Discount Factors Yunhao Tang Mark Rowland Rémi Munos Michal Valko OffRL 72 5 0 11 Jun 2021
DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning Daochen Zha Jingru Xie Wenye Ma Sheng Zhang Xiangru Lian Helen Zhou Ji Liu 71 118 0 11 Jun 2021
Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games Xiangyu Liu Hangtian Jia Ying Wen Yaodong Yang Yujing Hu Yingfeng Chen Changjie Fan Zhipeng Hu 79 19 0 09 Jun 2021
Pretraining Representations for Data-Efficient Reinforcement Learning Max Schwarzer Nitarshan Rajkumar Michael Noukhovitch Ankesh Anand Laurent Charlin Devon Hjelm Philip Bachman Aaron Courville OffRL 115 118 0 09 Jun 2021
There Is No Turning Back: A Self-Supervised Approach for Reversibility-Aware Reinforcement Learning Nathan Grinsztajn Johan Ferret Olivier Pietquin Philippe Preux Matthieu Geist SSL 123 14 0 08 Jun 2021
Launchpad: A Programming Model for Distributed Machine Learning Research Fan Yang Gabriel Barth-Maron Piotr Stańczyk Matthew Hoffman Siqi Liu M. Kroiss Aedan Pope Alban Rrustemi 71 24 0 07 Jun 2021
Towards robust and domain agnostic reinforcement learning competitions William H. Guss Stephanie Milani Nicholay Topin Brandon Houghton Sharada Mohanty ... Lu Liu Daichi Nishio Toi Tsuneda Karolis Ramanauskas Gabija Juceviciute OOD 66 2 0 07 Jun 2021
Same State, Different Task: Continual Reinforcement Learning without Interference Samuel Kessler Jack Parker-Holder Philip J. Ball S. Zohren Stephen J. Roberts CLL OffRL 93 47 0 05 Jun 2021
MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning Ming Zhou Bo Liu Hanjing Wang Muning Wen Runzhe Wu Ying Wen Yaodong Yang Weinan Zhang Jun Wang OffRL 61 49 0 05 Jun 2021
Heuristic-Guided Reinforcement Learning Ching-An Cheng Andrey Kolobov Adith Swaminathan OffRL 94 62 0 05 Jun 2021
Differentiable Architecture Search for Reinforcement Learning Yingjie Miao Xingyou Song John D. Co-Reyes Daiyi Peng Summer Yue E. Brevdo Aleksandra Faust 71 4 0 04 Jun 2021
Towards Deeper Deep Reinforcement Learning with Spectral Normalization Johan Bjorck Carla P. Gomes Kilian Q. Weinberger 108 23 0 02 Jun 2021
An Empirical Comparison of Off-policy Prediction Learning Algorithms on the Collision Task Sina Ghiassian R. Sutton AAML OffRL 93 5 0 02 Jun 2021
An Entropy Regularization Free Mechanism for Policy-based Reinforcement Learning Changnan Xiao Haosen Shi Jiajun Fan Shihong Deng 71 5 0 01 Jun 2021
Reward is enough for convex MDPs Tom Zahavy Brendan O'Donoghue Guillaume Desjardins Satinder Singh 137 76 0 01 Jun 2021
Did I do that? Blame as a means to identify controlled effects in reinforcement learning Oriol Corcoll Youssef Mohamed Raul Vicente 69 3 0 01 Jun 2021
Goal Misgeneralization in Deep Reinforcement Learning L. Langosco Jack Koch Lee D. Sharkey J. Pfau Laurent Orseau David M. Krueger 114 84 0 28 May 2021
Towards mental time travel: a hierarchical memory for reinforcement learning agents Andrew Kyle Lampinen Stephanie C. Y. Chan Andrea Banino Felix Hill 96 47 0 28 May 2021
AndroidEnv: A Reinforcement Learning Platform for Android Daniel Toyama P. Hamel Anita Gergely Gheorghe Comanici Amelia Glaese Zafarali Ahmed Tyler Jackson Shibl Mourad Doina Precup VLM SSeg 90 78 0 27 May 2021
Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear Function Approximation Zaiwei Chen S. Khodadadian S. T. Maguluri OffRL 105 31 0 26 May 2021
Gym- $μ$ RTS: Toward Affordable Full Game Real-time Strategy Games Research with Deep Reinforcement Learning Sheng-Jun Huang Santiago Ontañón Chris Bamford Lukasz Grela OffRL 49 36 0 21 May 2021
Don't Do What Doesn't Matter: Intrinsic Motivation with Action Usefulness Mathieu Seurin Florian Strub Philippe Preux Olivier Pietquin 37 9 0 20 May 2021
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning Yue Wu Shuangfei Zhai Nitish Srivastava J. Susskind Jian Zhang Ruslan Salakhutdinov Hanlin Goh EDL OffRL OnRL 82 191 0 17 May 2021
Return-based Scaling: Yet Another Normalisation Trick for Deep RL Tom Schaul Georg Ostrovski Iurii Kemaev Diana Borsa 59 19 0 11 May 2021
CASA: Bridging the Gap between Policy Improvement and Policy Evaluation with Conflict Averse Policy Iteration Changnan Xiao Haosen Shi Jiajun Fan Shihong Deng Haiyan Yin 93 0 0 09 May 2021
Agent-Centric Representations for Multi-Agent Reinforcement Learning Wenling Shang L. Espeholt Anton Raichuk Tim Salimans EgoV 55 10 0 19 Apr 2021
MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale Dmitry Kalashnikov Jacob Varley Yevgen Chebotar Benjamin Swanson Rico Jonschkowski Chelsea Finn Sergey Levine Karol Hausman OffRL 149 280 0 16 Apr 2021
Generalising Discrete Action Spaces with Conditional Action Trees Christopher Bamford Alvaro Ovalle 72 7 0 15 Apr 2021
A Novel Approach to Curiosity and Explainable Reinforcement Learning via Interpretable Sub-Goals C. V. Rossum Candice Feinberg Adam Abu Shumays Kyle Baxter Benedek Bartha GAN LLMAG LRM 39 1 0 14 Apr 2021
Online and Offline Reinforcement Learning by Planning with a Learned Model Julian Schrittwieser Thomas Hubert Amol Mandhane M. Barekatain Ioannis Antonoglou David Silver OffRL 80 118 0 13 Apr 2021
Podracer architectures for scalable Reinforcement Learning Matteo Hessel M. Kroiss Aidan Clark Iurii Kemaev John Quan Thomas Keck Fabio Viola H. V. Hasselt 76 39 0 13 Apr 2021
Muesli: Combining Improvements in Policy Optimization Matteo Hessel Ivo Danihelka Fabio Viola A. Guez Simon Schmitt Laurent Sifre T. Weber David Silver H. V. Hasselt 111 66 0 13 Apr 2021
Auxiliary Tasks and Exploration Enable ObjectNav Joel Ye Dhruv Batra Abhishek Das Erik Wijmans 93 100 0 08 Apr 2021
Risk-Conditioned Distributional Soft Actor-Critic for Risk-Sensitive Navigation Jinyoung Choi C. Dance Jung-Eun Kim Seulbin Hwang Kyungsik Park UQCV 58 26 0 07 Apr 2021
Domain Generalization with MixStyle Kaiyang Zhou Yongxin Yang Yu Qiao Tao Xiang 157 765 0 05 Apr 2021
Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation Emilio Parisotto Ruslan Salakhutdinov 108 46 0 04 Apr 2021
Deep Reinforcement Learning for Constrained Field Development Optimization in Subsurface Two-phase Flow Y. Nasir Jincong He Chaoshun Hu Shusei Tanaka Kainan Wang X. Wen AI4CE 49 19 0 31 Mar 2021