Title
Nearly Optimal Sample Complexity of Offline KL-Regularized Contextual Bandits under Single-Policy Concentrability Qingyue Zhao Kaixuan Ji Heyang Zhao Tong Zhang Q. Gu OffRL 45 0 0 09 Feb 2025
Mirror Descent Actor Critic via Bounded Advantage Learning Ryo Iwaki 93 0 0 06 Feb 2025
Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice Toshinori Kitamura Tadashi Kozuno Yunhao Tang Nino Vieillard Michal Valko ... Olivier Pietquin M. Geist Csaba Szepesvári Wataru Kumagai Yutaka Matsuo OffRL 30 2 0 22 May 2023
Policy Mirror Descent for Reinforcement Learning: Linear Convergence, New Sampling Complexity, and Generalized Problem Classes Guanghui Lan 89 136 0 30 Jan 2021