Title
Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks Yun Qu Boyuan Wang Jianzhun Shao Yuhang Jiang Chen Chen ... Qiang Fu Wei Yang Guang Yang Lanxiao Huang Xiangyang Ji OffRL 54 9 0 20 Aug 2024
A Survey on Self-play Methods in Reinforcement Learning Chao Yu Zelai Xu Chengdong Ma Chao Yu Weijuan Tu ... Deheng Ye Wenbo Ding Yaodong Yang Yu Wang Yu Wang SyDa SSL OnRL 62 8 0 02 Aug 2024
CUPID: Improving Battle Fairness and Position Satisfaction in Online MOBA Games with a Re-matchmaking System Ge Fan Chaoyun Zhang Kai Wang Yingjie Li Junyang Chen Zenglin Xu 38 1 0 28 Jun 2024
Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning Jinyi Liu Yi Ma Jianye Hao Yujing Hu Yan Zheng Tangjie Lv Changjie Fan OffRL 47 2 0 27 Jun 2023
On the Efficacy of 3D Point Cloud Reinforcement Learning Z. Ling Yuan Yao Xuanlin Li H. Su 3DPC 34 13 0 11 Jun 2023
Constrained Reinforcement Learning for Dynamic Material Handling Chengpeng Hu Ziming Wang Jialin Liu J. Wen Bifei Mao Xinghu Yao 24 0 0 23 May 2023
Towards Effective and Interpretable Human-Agent Collaboration in MOBA Games: A Communication Perspective Yiming Gao Feiyu Liu Liang Wang Zhenjie Lian Weixuan Wang ... Jiawei Wang Qiang Fu Wei Yang Lanxiao Huang Wei Liu 45 7 0 23 Apr 2023
Mastering Asymmetrical Multiplayer Game with Multi-Agent Asymmetric-Evolution Reinforcement Learning Chenglu Sun Yi-cui Zhang Yu Zhang Ziling Lu Jingbin Liu Si-Qi Xu Weidong Zhang 27 0 0 20 Apr 2023
Multi-Agent Reinforcement Learning with Action Masking for UAV-enabled Mobile Communications D. Rizvi David P. Boyle 21 4 0 29 Mar 2023
Visual Imitation Learning with Patch Rewards Minghuan Liu Tairan He Weinan Zhang Shuicheng Yan Zhongwen Xu SSL 22 13 0 02 Feb 2023
Joint action loss for proximal policy optimization Xiulei Song Yi-Fan Jin Greg Slabaugh Simon Lucas 21 0 0 26 Jan 2023
A Survey on Transformers in Reinforcement Learning Wenzhe Li Hao Luo Zichuan Lin Chongjie Zhang Zongqing Lu Deheng Ye OffRL MU AI4CE 37 56 0 08 Jan 2023
RLogist: Fast Observation Strategy on Whole-slide Images with Deep Reinforcement Learning Boxuan Zhao Jun Zhang Deheng Ye Jiancheng Cao Xiao Han Qiang Fu Wei Yang OffRL 31 9 0 04 Dec 2022
Learning Heterogeneous Agent Cooperation via Multiagent League Training Qing Fu X. Ai Jianqiang Yi Tenghai Qiu Wanmai Yuan Zhiqiang Pu 21 7 0 13 Nov 2022
Curriculum-based Asymmetric Multi-task Reinforcement Learning H. Huang Deheng Ye Li Shen Wen Liu 32 12 0 07 Nov 2022
DanZero: Mastering GuanDan Game with Reinforcement Learning Yudong Lu Jian Zhao Youpeng Zhao Wen-gang Zhou Houqiang Li 19 6 0 31 Oct 2022
Classifying Ambiguous Identities in Hidden-Role Stochastic Games with Multi-Agent Reinforcement Learning Shijie Han Siyuan Li Bo An Wei Zhao P. Liu 35 0 0 24 Oct 2022
Revisiting Discrete Soft Actor-Critic Haibin Zhou Zichuan Lin Junyou Li Qiang Fu Wei Yang Deheng Ye 51 12 0 21 Sep 2022
Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning Hua Wei Jingxiao Chen Xiyang Ji Hongyang Qin Minwen Deng ... Lin Liu Lanxiao Huang Deheng Ye Qiang Fu Wei Yang 43 28 0 18 Sep 2022
A Cooperation Graph Approach for Multiagent Sparse Reward Reinforcement Learning Qing Fu Tenghai Qiu Zhiqiang Pu Jianqiang Yi Wanmai Yuan 36 2 0 05 Aug 2022
The Sufficiency of Off-Policyness and Soft Clipping: PPO is still Insufficient according to an Off-Policy Measure Xing Chen Dongcui Diao Hechang Chen Hengshuai Yao Haiyin Piao Zhixiao Sun Zhiwei Yang Randy Goebel Bei Jiang Yi-Ju Chang OffRL 41 8 0 20 May 2022
PerfectDou: Dominating DouDizhu with Perfect Information Distillation Yang Guan Minghuan Liu Weijun Hong Weinan Zhang Fei Fang Guangjun Zeng Yue Lin 33 26 0 30 Mar 2022
Scenario-Assisted Deep Reinforcement Learning Raz Yerushalmi Guy Amir Achiya Elyasaf D. Harel Guy Katz Assaf Marron OffRL 27 12 0 09 Feb 2022
You May Not Need Ratio Clipping in PPO Mingfei Sun Vitaly Kurin Guoqing Liu Sam Devlin Tao Qin Katja Hofmann Shimon Whiteson 18 15 0 31 Jan 2022
Value Activation for Bias Alleviation: Generalized-activated Deep Double Deterministic Policy Gradients Jiafei Lyu Yu Yang Jiangpeng Yan Xiu Li OffRL AI4CE 39 5 0 21 Dec 2021
JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical Reinforcement Learning Zichuan Lin Junyou Li Jianing Shi Deheng Ye Qiang Fu Wei Yang BDL 45 34 0 07 Dec 2021
Neural PPO-Clip Attains Global Optimality: A Hinge Loss Perspective Nai-Chieh Huang Ping-Chun Hsieh Kuo-Hao Ho Hsuan-Yu Yao Kai-Chun Hu Liang-Chun Ouyang I-Chen Wu 34 1 0 26 Oct 2021
Value Penalized Q-Learning for Recommender Systems Chengqian Gao Ke Xu Kuangqi Zhou Lanqing Li Xueqian Wang Bo Yuan P. Zhao OffRL 54 20 0 15 Oct 2021
DQ-GAT: Towards Safe and Efficient Autonomous Driving with Deep Q-Learning and Graph Attention Networks Peide Cai Hengli Wang Yuxiang Sun Ming Liu GNN 35 39 0 11 Aug 2021
DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning Daochen Zha Jingru Xie Wenye Ma Sheng Zhang Xiangru Lian Xia Hu Ji Liu 25 117 0 11 Jun 2021
Cooperative Multi-Agent Transfer Learning with Level-Adaptive Credit Assignment Tianze Zhou Fubiao Zhang Kun Shao Kai Li Wenhan Huang ... Hangyu Mao Bin Wang Dong Li Wulong Liu Jianye Hao 37 16 0 01 Jun 2021
A Self-adaptive SAC-PID Control Approach based on Reinforcement Learning for Mobile Robots Xinyi Yu Yu Fan Siyu Xu L. Ou 32 32 0 19 Mar 2021
Which Heroes to Pick? Learning to Draft in MOBA Games with Neural Networks and Tree Search Sheng Chen Menghui Zhu Deheng Ye Weinan Zhang Qiang Fu Wei Yang 35 29 0 18 Dec 2020
Online Service Migration in Mobile Edge with Incomplete System Information: A Deep Recurrent Actor-Critic Learning Approach Jin Wang Jia Hu Geyong Min Qiang Ni Tarek A. El-Ghazawi 26 28 0 16 Dec 2020
TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning Peng Sun Jiechao Xiong Lei Han Xinghai Sun Shuxing Li Jiawei Xu Meng Fang Zhengyou Zhang OffRL LRM 33 19 0 25 Nov 2020
Supervised Learning Achieves Human-Level Performance in MOBA Games: A Case Study of Honor of Kings Deheng Ye Guibin Chen P. Zhao Fuhao Qiu Bo Yuan ... Liang Wang Tengfei Shi Qiang Fu Wei Yang Lanxiao Huang 40 49 0 25 Nov 2020
Proximal Policy Optimization via Enhanced Exploration Efficiency Junwei Zhang Zhenghao Zhang Shuai Han Shuai Lu 34 41 0 11 Nov 2020
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization Lanqing Li Rui Yang Dijun Luo OffRL 33 10 0 02 Oct 2020
A Closer Look at Invalid Action Masking in Policy Gradient Algorithms Shengyi Huang Santiago Ontañón 35 310 0 25 Jun 2020
Non-local Policy Optimization via Diversity-regularized Collaborative Exploration Zhenghao Peng Hao Sun Bolei Zhou 18 18 0 14 Jun 2020
Action Space Shaping in Deep Reinforcement Learning Anssi Kanervisto Christian Scheller Ville Hautamaki 19 80 0 02 Apr 2020