Title
Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria Kavya Kopparapu Edgar A. Duénez-Guzmán Jayd Matyas A. Vezhnevets J. Agapiou Kevin R. McKee Richard Everett J. Marecki Joel Z Leibo T. Graepel 65 7 0 05 Jan 2022
Evaluating the Robustness of Deep Reinforcement Learning for Autonomous Policies in a Multi-agent Urban Driving Environment Aizaz Sharif D. Marijan 46 5 0 22 Dec 2021
Graph augmented Deep Reinforcement Learning in the GameRLand3D environment E. Beeching Maxim Peter Philippe Marcotte Jilles Debangoye Olivier Simonin Joshua Romoff Christian Wolf 91 5 0 22 Dec 2021
Feature-Attending Recurrent Modules for Generalization in Reinforcement Learning Wilka Carvalho Andrew Kyle Lampinen Kyriacos Nikiforou Felix Hill Murray Shanahan OffRL 81 0 0 15 Dec 2021
Learning Generalizable Behavior via Visual Rewrite Rules Yiheng Xie Mingxuan Li Shangqun Yu Michael Littman DRL 21 1 0 09 Dec 2021
CoMPS: Continual Meta Policy Search Glen Berseth Zhiwei Zhang Grace Zhang Chelsea Finn Sergey Levine CLL OffRL 94 15 0 08 Dec 2021
A Review for Deep Reinforcement Learning in Atari:Benchmarks, Challenges, and Solutions Jiajun Fan OffRL 87 21 0 08 Dec 2021
Tell me why! Explanations support learning relational and causal structure Andrew Kyle Lampinen Nicholas A. Roy Ishita Dasgupta Stephanie C. Y. Chan Allison C. Tam ... Chen Yan Adam Santoro Neil C. Rabinowitz Jane X. Wang Felix Hill 148 46 0 07 Dec 2021
Godot Reinforcement Learning Agents E. Beeching Jilles Debangoye Olivier Simonin Christian Wolf GP OnRL 54 5 0 07 Dec 2021
Combining Learning from Human Feedback and Knowledge Engineering to Solve Hierarchical Tasks in Minecraft Vinicius G. Goecks Nicholas R. Waytowich David Watkins Bharat Prakash 44 7 0 07 Dec 2021
Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks Linghui Meng Muning Wen Yaodong Yang Chenyang Le Xiyun Li Weinan Zhang Ying Wen Haifeng Zhang Jun Wang Bo Xu OffRL 104 43 0 06 Dec 2021
Improving Zero-shot Generalization in Offline Reinforcement Learning using Generalized Similarity Functions Bogdan Mazoure Ilya Kostrikov Ofir Nachum Jonathan Tompson OffRL 83 23 0 29 Nov 2021
Interesting Object, Curious Agent: Learning Task-Agnostic Exploration Simone Parisi Victoria Dean Deepak Pathak Abhinav Gupta LM&Ro 85 51 0 25 Nov 2021
How does AI play football? An analysis of RL and real-world football strategies Atom Scott Keisuke Fujii Masaki Onishi 171 13 0 24 Nov 2021
Off-Policy Correction For Multi-Agent Reinforcement Learning Michał Zawalski Bla.zej Osiñski Henryk Michalewski Piotr Milo's OffRL 79 2 0 22 Nov 2021
Fast and Data-Efficient Training of Rainbow: an Experimental Study on Atari Dominik Schmidt Thomas Schmied OffRL 61 12 0 19 Nov 2021
AI in Human-computer Gaming: Techniques, Challenges and Opportunities Qiyue Yin Jun Yang Kaiqi Huang Meijing Zhao Wancheng Ni Bin Liang Yan Huang Shu Wu Liangsheng Wang 61 21 0 15 Nov 2021
RLOps: Development Life-cycle of Reinforcement Learning Aided Open RAN Peizheng Li Jonathan D. Thomas Xiaoyang Wang Ahmed Khalil A. Ahmad ... S. Kapoor Arjun Parekh A. Doufexi Arman Shojaeifard Robert Piechocki AI4TS 70 38 0 12 Nov 2021
On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning Andrew Cohen Ervin Teng Vincent-Pierre Berges Ruo-Ping Dong Hunter Henry Marwan Mattar Alexander Zook Sujoy Ganguly 73 35 0 10 Nov 2021
Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task Learning Wenlong Huang Igor Mordatch Pieter Abbeel Deepak Pathak 136 64 0 04 Nov 2021
A System for General In-Hand Object Re-Orientation Tao Chen Jie Xu Pulkit Agrawal 139 258 0 04 Nov 2021
Towards an Understanding of Default Policies in Multitask Policy Optimization Theodore H. Moskovitz Michael Arbel Jack Parker-Holder Aldo Pacchiano 70 10 0 04 Nov 2021
Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch Shangtong Zhang Rémi Tachet des Combes Romain Laroche 112 12 0 04 Nov 2021
Human-Level Control without Server-Grade Hardware Brett Daley Chris Amato BDL OffRL 38 0 0 01 Nov 2021
Generalized Proximal Policy Optimization with Sample Reuse James Queeney I. Paschalidis Christos G. Cassandras OffRL 152 51 0 29 Oct 2021
Wasserstein Distance Maximizing Intrinsic Control Ishan Durugkar Steven Hansen Stephen Spencer Volodymyr Mnih 97 6 0 28 Oct 2021
Self-Consistent Models and Values Roy Miles Kate Baumli Zita Marinho Angelos Filos Matteo Hessel Hado van Hasselt David Silver 95 8 0 25 Oct 2021
A Distributed Deep Reinforcement Learning Technique for Application Placement in Edge and Fog Computing Environments M. Goudarzi M. Palaniswami Rajkumar Buyya OffRL 94 90 0 24 Oct 2021
Fully Distributed Actor-Critic Architecture for Multitask Deep Reinforcement Learning John Harwell Angel Sylvester Aleksi Tukiainen Enrique Munoz de Cote 68 4 0 23 Oct 2021
A Versatile and Efficient Reinforcement Learning Framework for Autonomous Driving Guan-Bo Wang Haoyi Niu Desheng Zhu Jianming Hu Xianyuan Zhan Guyue Zhou OffRL 106 2 0 22 Oct 2021
Statistical discrimination in learning agents Edgar A. Duénez-Guzmán Kevin R. McKee Yiran Mao Ben Coppin Silvia Chiappa ... Yoram Bachrach Suzanne Sadedin William S. Isaac K. Tuyls Joel Z Leibo 79 7 0 21 Oct 2021
On games and simulators as a platform for development of artificial intelligence for command and control Vinicius G. Goecks Nicholas R. Waytowich Derrik E. Asher Song Jun Park Mark R. Mittrick ... Anne Logie Mark S. Dennison T. Trout Priya Narayanan Alexander Kott 93 26 0 21 Oct 2021
SILG: The Multi-environment Symbolic Interactive Language Grounding Benchmark Victor Zhong Austin W. Hanjie Sida Wang Karthik Narasimhan Luke Zettlemoyer 42 12 0 20 Oct 2021
CORA: Benchmarks, Baselines, and Metrics as a Platform for Continual Reinforcement Learning Agents Sam Powers Eliot Xing Eric Kolve Roozbeh Mottaghi Abhinav Gupta OffRL 112 41 0 19 Oct 2021
Variance Reduction based Experience Replay for Policy Optimization Hua Zheng Wei Xie M. Feng OffRL 90 2 0 17 Oct 2021
Collaborating with Humans without Human Data D. Strouse Kevin R. McKee M. Botvinick Edward Hughes Richard Everett 184 171 0 15 Oct 2021
Containerized Distributed Value-Based Multi-Agent Reinforcement Learning Siyang Wu Tonghan Wang Chenghao Li Yang Hu Chongjie Zhang OffRL 55 1 0 15 Oct 2021
Safe Driving via Expert Guided Policy Optimization Zhenghao Peng Quanyi Li Chunxiao Liu Bolei Zhou OffRL 88 44 0 13 Oct 2021
Feudal Reinforcement Learning by Reading Manuals Kai Wang Zhonghao Wang Mo Yu Humphrey Shi OffRL 79 0 0 13 Oct 2021
Learning to Coordinate in Multi-Agent Systems: A Coordinated Actor-Critic Algorithm and Finite-Time Guarantees Siliang Zeng Tianyi Chen Alfredo García Mingyi Hong 92 11 0 11 Oct 2021
Learning a subspace of policies for online adaptation in Reinforcement Learning Jean-Baptiste Gaya Laure Soulier Ludovic Denoyer OffRL 95 15 0 11 Oct 2021
Recurrent Model-Free RL Can Be a Strong Baseline for Many POMDPs Tianwei Ni Benjamin Eysenbach Ruslan Salakhutdinov 83 110 0 11 Oct 2021
Medical Dead-ends and Learning to Identify High-risk States and Treatments Mehdi Fatemi Taylor W. Killian J. Subramanian Marzyeh Ghassemi OffRL 94 40 0 08 Oct 2021
No-Press Diplomacy from Scratch A. Bakhtin David J. Wu Adam Lerer Noam Brown 181 44 0 06 Oct 2021
Colmena: Scalable Machine-Learning-Based Steering of Ensemble Simulations for High Performance Computing Logan T. Ward Ganesh Sivaraman J. G. Pauloski Y. Babuji Ryan Chard ... R. Assary Kyle Chard L. Curtiss R. Thakur Ian Foster 59 40 0 06 Oct 2021
CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning C. Benjamins Theresa Eimer Frederik Schubert André Biedenkapp Bodo Rosenhahn Frank Hutter Marius Lindauer OffRL 94 23 0 05 Oct 2021
Collective eXplainable AI: Explaining Cooperative Strategies and Agent Contribution in Multiagent Reinforcement Learning with Shapley Values Alexandre Heuillet Fabien Couthouis Natalia Díaz Rodríguez 89 65 0 04 Oct 2021
Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations Chi Zhang S. Kuppannagari Viktor Prasanna OffRL 36 8 0 03 Oct 2021
An Unsupervised Video Game Playstyle Metric via State Discretization Chiu-Chou Lin W. Chiu I-Chen Wu 32 3 0 03 Oct 2021
Batch size-invariance for policy optimization Jacob Hilton K. Cobbe John Schulman 120 14 0 01 Oct 2021