OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation

OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation

21 June 2021

Papers citing "OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation"

17 / 67 papers shown

Title
State-Aware Proximal Pessimistic Algorithms for Offline Reinforcement Learning Cheng Chen Hongyao Tang Yi Ma Chao Wang Qianli Shen Dong Li Jianye Hao OffRL 26 0 0 28 Nov 2022
Optimal Conservative Offline RL with General Function Approximation via Augmented Lagrangian Paria Rashidinejad Hanlin Zhu Kunhe Yang Stuart J. Russell Jiantao Jiao OffRL 35 26 0 01 Nov 2022
A Unified Framework for Alternating Offline Model Training and Policy Learning Shentao Yang Shujian Zhang Yihao Feng Mi Zhou OffRL 37 16 0 12 Oct 2022
DCE: Offline Reinforcement Learning With Double Conservative Estimates Chen Zhao K. Huang Chun yuan OffRL 32 1 0 27 Sep 2022
Regularizing a Model-based Policy Stationary Distribution to Stabilize Offline Reinforcement Learning Shentao Yang Yihao Feng Shujian Zhang Mi Zhou OffRL 32 12 0 14 Jun 2022
How Far I'll Go: Offline Goal-Conditioned Reinforcement Learning via $f$ -Advantage Regression Yecheng Jason Ma Jason Yan Dinesh Jayaraman Osbert Bastani OffRL 20 51 0 07 Jun 2022
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation Jongmin Lee Cosmin Paduraru D. Mankowitz N. Heess Doina Precup Kee-Eung Kim A. Guez OffRL 9 49 0 19 Apr 2022
LobsDICE: Offline Learning from Observation via Stationary Distribution Correction Estimation Geon-hyeong Kim Jongmin Lee Youngsoo Jang Hongseok Yang Kyungmin Kim OffRL 25 15 0 28 Feb 2022
A Behavior Regularized Implicit Policy for Offline Reinforcement Learning Shentao Yang Zhendong Wang Huangjie Zheng Yihao Feng Mingyuan Zhou OffRL 6 8 0 19 Feb 2022
Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality Jiawei Huang Jinglin Chen Li Zhao Tao Qin Nan Jiang Tie-Yan Liu OffRL 27 23 0 14 Feb 2022
Offline Reinforcement Learning with Realizability and Single-policy Concentrability Wenhao Zhan Baihe Huang Audrey Huang Nan Jiang Jason D. Lee OffRL 34 104 0 09 Feb 2022
Rethinking ValueDice: Does It Really Improve Performance? Ziniu Li Tian Xu Yang Yu Zhimin Luo OffRL 15 17 0 05 Feb 2022
Versatile Offline Imitation from Observations and Examples via Regularized State-Occupancy Matching Yecheng Jason Ma Andrew Shen Dinesh Jayaraman Osbert Bastani OffRL 23 32 0 04 Feb 2022
Offline Reinforcement Learning with Value-based Episodic Memory Xiaoteng Ma Yiqin Yang Haotian Hu Qihan Liu Jun Yang Chongjie Zhang Qianchuan Zhao Bin Liang OffRL 24 42 0 19 Oct 2021
Offline Reinforcement Learning with Soft Behavior Regularization Haoran Xu Xianyuan Zhan Jianxiong Li Honglei Yin OffRL 21 31 0 14 Oct 2021
Improve Agents without Retraining: Parallel Tree Search with Off-Policy Correction Assaf Hallak Gal Dalal Steven Dalton I. Frosio Shie Mannor Gal Chechik OffRL OnRL 35 9 0 04 Jul 2021
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 340 1,960 0 04 May 2020