Projected State-action Balancing Weights for Offline Reinforcement
Learning

Projected State-action Balancing Weights for Offline Reinforcement Learning

10 September 2021

Raymond K. W. Wong

Papers citing "Projected State-action Balancing Weights for Offline Reinforcement Learning"

13 / 13 papers shown

Title
Statistical Inference in Reinforcement Learning: A Selective Survey Chengchun Shi OffRL 69 0 0 22 Feb 2025
A Fine-grained Analysis of Fitted Q-evaluation: Beyond Parametric Models Jiayi Wang Zhengling Qi Raymond K. W. Wong 27 0 0 14 Jun 2024
Combining Experimental and Historical Data for Policy Evaluation Ting Li Chengchun Shi Qianglin Wen Yang Sui Yongli Qin Chunbo Lai Hongtu Zhu OffRL 46 0 0 01 Jun 2024
Spatially Randomized Designs Can Enhance Policy Evaluation Ying Yang Chengchun Shi Fang Yao Shouyang Wang Hongtu Zhu OffRL 41 0 0 18 Mar 2024
Robust Offline Reinforcement learning with Heavy-Tailed Rewards Jin Zhu Runzhe Wan Zhengling Qi Shuang Luo C. Shi OffRL 43 0 0 28 Oct 2023
Off-policy Evaluation in Doubly Inhomogeneous Environments Zeyu Bian C. Shi Zhengling Qi Lan Wang OffRL 27 3 0 14 Jun 2023
Value Enhancement of Reinforcement Learning via Efficient and Robust Trust Region Optimization C. Shi Zhengling Qi Jianing Wang Fan Zhou OffRL 27 3 0 05 Jan 2023
Conformal Off-policy Prediction Yingying Zhang C. Shi Shuang Luo OffRL 33 10 0 14 Jun 2022
Testing Stationarity and Change Point Detection in Reinforcement Learning Mengbing Li C. Shi Zhanghua Wu Piotr Fryzlewicz OffRL 42 9 0 03 Mar 2022
A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets C. Shi Runzhe Wan Ge Song Shuang Luo R. Song Hongtu Zhu OffRL 41 6 0 21 Feb 2022
On Well-posedness and Minimax Optimal Rates of Nonparametric Q-function Estimation in Off-policy Evaluation Xiaohong Chen Zhengling Qi OffRL 33 31 0 17 Jan 2022
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 340 1,960 0 04 May 2020
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 38 181 0 22 Aug 2019