A Sharp Analysis of Model-based Reinforcement Learning with Self-Play

4 October 2020

Papers citing "A Sharp Analysis of Model-based Reinforcement Learning with Self-Play"

42 / 42 papers shown

Title
Improving LLM General Preference Alignment via Optimistic Online Mirror Descent Yuheng Zhang Dian Yu Tao Ge Linfeng Song Zhichen Zeng Haitao Mi Nan Jiang Dong Yu 58 1 0 24 Feb 2025
Incentivize without Bonus: Provably Efficient Model-based Online Multi-agent RL for Markov Games Tong Yang Bo Dai Lin Xiao Yuejie Chi OffRL 56 2 0 13 Feb 2025
Decentralized Online Learning in General-Sum Stackelberg Games Yaolong Yu Haipeng Chen 27 0 0 06 May 2024
Refined Sample Complexity for Markov Games with Independent Linear Function Approximation Yan Dai Qiwen Cui S. S. Du 41 1 0 11 Feb 2024
Multi-Player Zero-Sum Markov Games with Networked Separable Interactions Chanwoo Park K. Zhang Asuman Ozdaglar 30 8 0 13 Jul 2023
A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum Markov Games Anna Winnicki R. Srikant 34 1 0 17 Mar 2023
Can We Find Nash Equilibria at a Linear Rate in Markov Games? Zhuoqing Song Jason D. Lee Zhuoran Yang 29 8 0 03 Mar 2023
Efficient Planning in Combinatorial Action Spaces with Applications to Cooperative Multi-Agent Reinforcement Learning Volodymyr Tkachuk Seyed Alireza Bakhtiari Johannes Kirschner Matej Jusup Ilija Bogunovic Csaba Szepesvári 24 4 0 08 Feb 2023
Offline Learning in Markov Games with General Function Approximation Yuheng Zhang Yunru Bai Nan Jiang OffRL 15 8 0 06 Feb 2023
A Reduction-based Framework for Sequential Decision Making with Delayed Feedback Yunchang Yang Hangshi Zhong Tianhao Wu B. Liu Liwei Wang S. Du OffRL 27 8 0 03 Feb 2023
Provably Efficient Model-free RL in Leader-Follower MDP with Linear Function Approximation A. Ghosh 15 1 0 28 Nov 2022
A Self-Play Posterior Sampling Algorithm for Zero-Sum Markov Games Wei Xiong Han Zhong Chengshuai Shi Cong Shen Tong Zhang 63 18 0 04 Oct 2022
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games Shicong Cen Yuejie Chi S. Du Lin Xiao 51 35 0 03 Oct 2022
$$O(T^{-1})$ Convergence of Optimistic-Follow-the-Regularized-Leader in Two-Player Zero-Sum Markov Games$ $O(T^{-1})$ Convergence of Optimistic-Follow-the-Regularized-Leader in Two-Player Zero-Sum Markov Games Yuepeng Yang Cong Ma 35 14 0 26 Sep 2022
Minimax-Optimal Multi-Agent RL in Markov Games With a Generative Model Gen Li Yuejie Chi Yuting Wei Yuxin Chen 32 18 0 22 Aug 2022
Regret Minimization and Convergence to Equilibria in General-sum Markov Games Liad Erez Tal Lancewicki Uri Sherman Tomer Koren Yishay Mansour 40 25 0 28 Jul 2022
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions Shuang Qiu Xiaohan Wei Jieping Ye Zhaoran Wang Zhuoran Yang OffRL 22 11 0 25 Jul 2022
A Deep Reinforcement Learning Approach for Finding Non-Exploitable Strategies in Two-Player Atari Games Zihan Ding DiJia Su Qinghua Liu Chi Jin 33 3 0 18 Jul 2022
On the Statistical Efficiency of Reward-Free Exploration in Non-Linear RL Jinglin Chen Aditya Modi A. Krishnamurthy Nan Jiang Alekh Agarwal 35 25 0 21 Jun 2022
Policy Optimization for Markov Games: Unified Framework and Faster Convergence Runyu Zhang Qinghua Liu Haiquan Wang Caiming Xiong Na Li Yu Bai 19 26 0 06 Jun 2022
Learning in Congestion Games with Bandit Feedback Qiwen Cui Zhihan Xiong Maryam Fazel S. Du 24 12 0 04 Jun 2022
Sample-Efficient Reinforcement Learning of Partially Observable Markov Games Qinghua Liu Csaba Szepesvári Chi Jin 34 20 0 02 Jun 2022
The Complexity of Markov Equilibrium in Stochastic Games C. Daskalakis Noah Golowich K. Zhang 36 57 0 08 Apr 2022
Learning Markov Games with Adversarial Opponents: Efficient Algorithms and Fundamental Limits Qinghua Liu Yuanhao Wang Chi Jin AAML 24 15 0 14 Mar 2022
Near-Optimal Learning of Extensive-Form Games with Imperfect Information Yunru Bai Chi Jin Song Mei Tiancheng Yu 21 26 0 03 Feb 2022
When is Offline Two-Player Zero-Sum Markov Game Solvable? Qiwen Cui S. Du OffRL 30 29 0 10 Jan 2022
Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation Mohammad Salimibeni Arash Mohammadi Parvin Malekzadeh Konstantinos N. Plataniotis 18 5 0 30 Dec 2021
Can Reinforcement Learning Find Stackelberg-Nash Equilibria in General-Sum Markov Games with Myopic Followers? Han Zhong Zhuoran Yang Zhaoran Wang Michael I. Jordan 29 30 0 27 Dec 2021
Finite-Sample Analysis of Decentralized Q-Learning for Stochastic Games Zuguang Gao Qianqian Ma Tamer Bacsar J. Birge OffRL 22 7 0 15 Dec 2021
Independent Learning in Stochastic Games Asuman Ozdaglar M. O. Sayin K. Zhang 16 22 0 23 Nov 2021
Dueling RL: Reinforcement Learning with Trajectory Preferences Aldo Pacchiano Aadirupa Saha Jonathan Lee 31 81 0 08 Nov 2021
On Improving Model-Free Algorithms for Decentralized Multi-Agent Reinforcement Learning Weichao Mao Lin F. Yang K. Zhang Tamer Bacsar 31 57 0 12 Oct 2021
Provably Efficient Reinforcement Learning in Decentralized General-Sum Markov Games Weichao Mao Tamer Basar 23 66 0 12 Oct 2021
Satisficing Paths and Independent Multi-Agent Reinforcement Learning in Stochastic Games Bora Yongacoglu Gürdal Arslan S. Yüksel 32 15 0 09 Oct 2021
When Can We Learn General-Sum Markov Games with a Large Number of Players Sample-Efficiently? Ziang Song Song Mei Yu Bai 72 67 0 08 Oct 2021
Model-Free Learning for Two-Player Zero-Sum Partially Observable Markov Games with Perfect Recall Tadashi Kozuno Pierre Ménard Rémi Munos Michal Valko 24 18 0 11 Jun 2021
Optimal Uniform OPE and Model-based Offline Reinforcement Learning in Time-Homogeneous, Reward-Free and Task-Agnostic Settings Ming Yin Yu-Xiang Wang OffRL 26 19 0 13 May 2021
Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games Yu Bai Chi Jin Haiquan Wang Caiming Xiong 42 67 0 23 Feb 2021
Last-iterate Convergence of Decentralized Optimistic Gradient Descent/Ascent in Infinite-horizon Competitive Markov Games Chen-Yu Wei Chung-Wei Lee Mengxiao Zhang Haipeng Luo 13 82 0 08 Feb 2021
Online Learning in Unknown Markov Games Yi Tian Yuanhao Wang Tiancheng Yu S. Sra OffRL 12 13 0 28 Oct 2020
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity K. Zhang Sham Kakade Tamer Bacsar Lin F. Yang 47 119 0 15 Jul 2020
Reward-Free Exploration for Reinforcement Learning Chi Jin A. Krishnamurthy Max Simchowitz Tiancheng Yu OffRL 112 194 0 07 Feb 2020