$Pessimism for Offline Linear Contextual Bandits using $\ell_p$ Confidence Sets$

Pessimism for Offline Linear Contextual Bandits using $\ell_p$ Confidence Sets

21 May 2022

Papers citing "Pessimism for Offline Linear Contextual Bandits using $\ell_p$ Confidence Sets"

5 / 5 papers shown

Title
Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage Masatoshi Uehara Nathan Kallus Jason D. Lee Wen Sun OffRL 47 5 0 05 Feb 2023
Principled Reinforcement Learning with Human Feedback from Pairwise or $K$ -wise Comparisons Banghua Zhu Jiantao Jiao Michael I. Jordan OffRL 42 181 0 26 Jan 2023
Multi-Task Off-Policy Learning from Bandit Feedback Joey Hong B. Kveton S. Katariya Manzil Zaheer Mohammad Ghavamzadeh OffRL 30 10 0 09 Dec 2022
Pessimistic Model-based Offline Reinforcement Learning under Partial Coverage Masatoshi Uehara Wen Sun OffRL 98 9 0 13 Jul 2021
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 340 1,960 0 04 May 2020