Title
Measuring Sample Efficiency and Generalization in Reinforcement Learning Benchmarks: NeurIPS 2020 Procgen Benchmark Sharada Mohanty Jyotish Poonganam Adrien Gaidon Andrey Kolobov Blake Wulfe ... Jacob Hilton William H. Guss Sahika Genc John Schulman K. Cobbe 67 23 0 29 Mar 2021
SegVisRL: Visuomotor Development for a Lunar Rover for Hazard Avoidance using Camera Images Tamir Blum Gabin Paillet Watcharawut Masawat Mickaël Laîné Kazuya Yoshida 20 1 0 26 Mar 2021
Sample-efficient Reinforcement Learning Representation Learning with Curiosity Contrastive Forward Dynamics Model Thanh Nguyen Tung M. Luu Thang Vu Chang D. Yoo 49 17 0 15 Mar 2021
Large Batch Simulation for Deep Reinforcement Learning Brennan Shacklett Erik Wijmans Aleksei Petrenko Manolis Savva Dhruv Batra V. Koltun Kayvon Fatahalian 3DV OffRL AI4CE 93 26 0 12 Mar 2021
Model-free Policy Learning with Reward Gradients Qingfeng Lan Samuele Tosatto Homayoon Farrahi Rupam Mahmood 51 6 0 09 Mar 2021
A multi-agent reinforcement learning model of reputation and cooperation in human groups Kevin R. McKee Edward Hughes Tina Zhu Martin Chadwick Raphael Köster Antonio García Castañeda Charlie Beattie T. Graepel M. Botvinick Joel Z Leibo 73 9 0 08 Mar 2021
Provably Efficient Cooperative Multi-Agent Reinforcement Learning with Function Approximation Abhimanyu Dubey Alex Pentland 78 26 0 08 Mar 2021
Causal Analysis of Agent Behavior for AI Safety Grégoire Delétang Jordi Grau-Moya Miljan Martic Tim Genewein Tom McGrath Vladimir Mikulik M. Kunesch Shane Legg Pedro A. Ortega CML 76 7 0 05 Mar 2021
Reinforcement Learning Trajectory Generation and Control for Aggressive Perching on Vertical Walls with Quadrotors Chen-Huan Pi Kai-Chun Hu Yu-ting Huang Stone Cheng 30 2 0 04 Mar 2021
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings Lili Chen Kimin Lee A. Srinivas Pieter Abbeel OffRL 81 11 0 04 Mar 2021
Self-play Learning Strategies for Resource Assignment in Open-RAN Networks Xiaoyang Wang Jonathan D. Thomas Robert Piechocki S. Kapoor Raúl Santos-Rodríguez Arjun Parekh 57 24 0 03 Mar 2021
Inference-Based Deterministic Messaging For Multi-Agent Communication Varun Bhatt M. Buro 48 5 0 03 Mar 2021
The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games Chao Yu Akash Velu Eugene Vinitsky Jiaxuan Gao Yu Wang Alexandre M. Bayen Yi Wu OffRL 248 1,295 0 02 Mar 2021
Low-Precision Reinforcement Learning: Running Soft Actor-Critic in Half Precision Johan Bjorck Xiangyu Chen Christopher De Sa Carla P. Gomes Kilian Q. Weinberger 135 6 0 26 Feb 2021
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning Angelos Filos Clare Lyle Y. Gal Sergey Levine Natasha Jaques Gregory Farquhar 90 22 0 24 Feb 2021
Synthetic Returns for Long-Term Credit Assignment David Raposo Samuel Ritter Adam Santoro Greg Wayne T. Weber M. Botvinick H. V. Hasselt Francis Song AI4TS 101 35 0 24 Feb 2021
Beyond Fine-Tuning: Transferring Behavior in Reinforcement Learning Victor Campos Pablo Sprechmann Steven Hansen André Barreto Steven Kapturowski Alex Vitvitskyi Adria Puigdomenech Badia Charles Blundell OffRL OnRL 85 26 0 24 Feb 2021
PFRL: Pose-Free Reinforcement Learning for 6D Pose Estimation Jianzhun Shao Yuhang Jiang Gu Wang Zhigang Li Xiangyang Ji 72 29 0 24 Feb 2021
Communication Efficient Parallel Reinforcement Learning Mridul Agarwal Bhargav Ganguly Vaneet Aggarwal 77 11 0 22 Feb 2021
Decoupling Value and Policy for Generalization in Reinforcement Learning Roberta Raileanu Rob Fergus DRL OffRL 114 99 0 20 Feb 2021
On Proximal Policy Optimization's Heavy-tailed Gradients Saurabh Garg Joshua Zhanson Emilio Parisotto Adarsh Prasad J. Zico Kolter Zachary Chase Lipton Sivaraman Balakrishnan Ruslan Salakhutdinov Pradeep Ravikumar 100 13 0 20 Feb 2021
Adaptive Rational Activations to Boost Deep Reinforcement Learning Quentin Delfosse P. Schramowski Martin Mundt Alejandro Molina Kristian Kersting 141 15 0 18 Feb 2021
Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm S. Khodadadian Zaiwei Chen S. T. Maguluri CML OffRL 137 27 0 18 Feb 2021
End-to-End Egospheric Spatial Memory Daniel Lenton Stephen James R. Clark Andrew J. Davison 49 5 0 15 Feb 2021
Sparse Attention Guided Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement Learning Jaskirat Singh Liang Zheng OffRL 66 3 0 14 Feb 2021
Modelling Cooperation in Network Games with Spatio-Temporal Complexity Michiel A. Bakker Richard Everett Laura Weidinger Iason Gabriel William S. Isaac Joel Z Leibo Edward Hughes 61 5 0 13 Feb 2021
Discovery of Options via Meta-Learned Subgoals Vivek Veeriah Tom Zahavy Matteo Hessel Zhongwen Xu Junhyuk Oh Iurii Kemaev H. V. Hasselt David Silver Satinder Singh 84 33 0 12 Feb 2021
Measuring Progress in Deep Reinforcement Learning Sample Efficiency Florian E. Dorner 55 13 0 09 Feb 2021
Reverb: A Framework For Experience Replay Albin Cassirer Gabriel Barth-Maron E. Brevdo Sabela Ramos Toby Boyd Thibault Sottiaux M. Kroiss VLM OffRL 82 38 0 09 Feb 2021
Adversarially Guided Actor-Critic Yannis Flet-Berliac Johan Ferret Olivier Pietquin Philippe Preux Matthieu Geist 77 73 0 08 Feb 2021
Grid-to-Graph: Flexible Spatial Relational Inductive Biases for Reinforcement Learning Zhengyao Jiang Pasquale Minervini Minqi Jiang Tim Rocktaschel AI4CE 31 7 0 08 Feb 2021
Alchemy: A benchmark and analysis toolkit for meta-reinforcement learning agents Jane X. Wang Michael King Nicolas Porcel Z. Kurth-Nelson Tina Zhu ... Neil C. Rabinowitz Loic Matthey Demis Hassabis Alexander Lerchner M. Botvinick OffRL 93 33 0 04 Feb 2021
Neural Recursive Belief States in Multi-Agent Reinforcement Learning Pol Moreno Edward Hughes Kevin R. McKee Bernardo Avila-Pires T. Weber 66 23 0 03 Feb 2021
A Lyapunov Theory for Finite-Sample Guarantees of Asynchronous Q-Learning and TD-Learning Variants Zaiwei Chen S. T. Maguluri Sanjay Shakkottai Karthikeyan Shanmugam OffRL 217 55 0 02 Feb 2021
Acting in Delayed Environments with Non-Stationary Markov Policies E. Derman Gal Dalal Shie Mannor 84 34 0 28 Jan 2021
Finite Sample Analysis of Two-Time-Scale Natural Actor-Critic Algorithm S. Khodadadian Thinh T. Doan Justin Romberg S. T. Maguluri 99 43 0 26 Jan 2021
GST: Group-Sparse Training for Accelerating Deep Reinforcement Learning Juhyoung Lee Sangyeob Kim Sangjin Kim Wooyoung Jo H. Yoo OffRL 63 10 0 24 Jan 2021
Evaluating Soccer Player: from Live Camera to Deep Reinforcement Learning Paul Garnier T. Gregoir OffRL 46 12 0 13 Jan 2021
Asymmetric self-play for automatic goal discovery in robotic manipulation OpenAI OpenAI Matthias Plappert Raul Sampedro Tao Xu Ilge Akkaya ... Hyeonwoo Noh Lilian Weng Qiming Yuan Casey Chu Wojciech Zaremba SSL 150 79 0 13 Jan 2021
Geometric Entropic Exploration Z. Guo M. G. Azar Alaa Saade S. Thakoor Bilal Piot Bernardo Avila-Pires Michal Valko Thomas Mesnard Tor Lattimore Rémi Munos 97 32 0 06 Jan 2021
Reinforcement Learning with Latent Flow Wenling Shang Xiaofei Wang A. Srinivas Aravind Rajeswaran Yang Gao Pieter Abbeel Michael Laskin OffRL 80 23 0 06 Jan 2021
A Survey on Deep Reinforcement Learning for Audio-Based Applications S. Latif Heriberto Cuayáhuitl Farrukh Pervez Fahad Shamshad Hafiz Shehbaz Ali Min Zhang OffRL 128 75 0 01 Jan 2021
Towards Understanding Asynchronous Advantage Actor-critic: Convergence and Linear Speedup Han Shen Jianchao Tan Min-Fong Hong Tianyi Chen 76 30 0 31 Dec 2020
Towards Continual Reinforcement Learning: A Review and Perspectives Khimya Khetarpal Matthew D Riemer Irina Rish Doina Precup CLL OffRL 150 324 0 25 Dec 2020
Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning Agents via Neural Architecture Search Y. Fu Zhongzhi Yu Yongan Zhang Yingyan Lin 83 4 0 24 Dec 2020
Augmenting Policy Learning with Routines Discovered from a Single Demonstration Zelin Zhao Chuang Gan Jiajun Wu Xiaoxiao Guo J. Tenenbaum OffRL 95 5 0 23 Dec 2020
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner Rinu Boney Alexander Ilin Arno Solin Jarno Seppänen 34 3 0 22 Dec 2020
High-Throughput Synchronous Deep RL Iou-Jen Liu Raymond A. Yeh Alex Schwing OffRL 69 12 0 17 Dec 2020
Planning from Pixels in Atari with Learned Symbolic Representations Andrea Dittadi Frederik K. Drachmann Thomas Bolander 94 11 0 16 Dec 2020
How to Train PointGoal Navigation Agents on a (Sample and Compute) Budget Erik Wijmans Irfan Essa Dhruv Batra 3DPC 85 10 0 11 Dec 2020