Provably Efficient Reinforcement Learning for Adversarial Restless Multi-Armed Bandits with Unknown Transitions and Bandit Feedback

2 May 2024

Papers citing "Provably Efficient Reinforcement Learning for Adversarial Restless Multi-Armed Bandits with Unknown Transitions and Bandit Feedback"

2 / 2 papers shown

Title
A Best-of-Both-Worlds Algorithm for Constrained MDPs with Long-Term Constraints Jacopo Germano Francesco Emanuele Stradi Gianmarco Genalti Matteo Castiglioni A. Marchesi N. Gatti 31 9 0 27 Apr 2023
Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback Tiancheng Jin Tal Lancewicki Haipeng Luo Yishay Mansour Aviv A. Rosenberg 74 21 0 31 Jan 2022