Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning

29 October 2021

Papers citing "Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning"

2 / 2 papers shown

Title
Anytime-valid off-policy inference for contextual bandits Ian Waudby-Smith Lili Wu Aaditya Ramdas Nikos Karampatziakis Paul Mineiro OffRL 43 25 0 19 Oct 2022
Online Bootstrap Inference For Policy Evaluation in Reinforcement Learning Pratik Ramprasad Yuantong Li Zhuoran Yang Zhaoran Wang W. Sun Guang Cheng OffRL 50 27 0 08 Aug 2021