Title
Two-Player Zero-Sum Differential Games with One-Sided Information Mukesh Ghimire Z. Xu Yi Ren SyDa 139 0 0 17 Feb 2025
Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Model Alignment Mingzhi Wang Chengdong Ma Qizhi Chen Linjian Meng Yang Han Jiancong Xiao Zhaowei Zhang Jing Huo Weijie Su Yaodong Yang 104 7 0 22 Oct 2024
Last Iterate Convergence in Monotone Mean Field Games Noboru Isobe Kenshi Abe Kaito Ariu 53 0 0 07 Oct 2024
Learning in Games with Progressive Hiding Benjamin Heymann Marc Lanctot 17 0 0 05 Sep 2024
A Survey on Self-play Methods in Reinforcement Learning Chao Yu Zelai Xu Chengdong Ma Chao Yu Weijuan Tu ... Deheng Ye Wenbo Ding Yaodong Yang Yu Wang Yu Wang SyDa SSL OnRL 77 8 0 02 Aug 2024
Computing Approximate Equilibria in Sequential Adversarial Games by Exploitability Descent Edward Lockhart Marc Lanctot Julien Pérolat Jean-Baptiste Lespiau Dustin Morrill Finbarr Timbers K. Tuyls 114 82 0 13 Mar 2019
A Theory of Regularized Markov Decision Processes Matthieu Geist B. Scherrer Olivier Pietquin 84 317 0 31 Jan 2019
Negative Momentum for Improved Game Dynamics Gauthier Gidel Reyhane Askari Hemmat Mohammad Pezeshki Rémi Le Priol Gabriel Huang Simon Lacoste-Julien Ioannis Mitliagkas AI4CE 43 180 0 12 Jul 2018
IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures L. Espeholt Hubert Soyer Rémi Munos Karen Simonyan Volodymyr Mnih ... Vlad Firoiu Tim Harley Iain Dunning Shane Legg Koray Kavukcuoglu 149 1,584 0 05 Feb 2018
Deep Reinforcement Learning from Self-Play in Imperfect-Information Games Johannes Heinrich David Silver SSL 33 397 0 03 Mar 2016