Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback

6 February 2025

Papers citing "Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback"

1 / 1 papers shown

Title
Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits Fan Chen Zeyu Jia Alexander Rakhlin Tengyang Xie OffRL 39 0 0 26 May 2025