Adaptive Advantage-Guided Policy Regularization for Offline
Reinforcement Learning

Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning

30 May 2024

Wei Pan

Papers citing "Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning"

16 / 16 papers shown

Title
Skill Expansion and Composition in Parameter Space Tenglong Liu Junjie Li Yinan Zheng Haoyi Niu Yixing Lan Xin Xu Xianyuan Zhan 90 4 0 09 Feb 2025
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining Jie Cheng Ruixi Qiao Gang Xiong Binhua Li Yingwei Ma Binhua Li Yongbin Li Yisheng Lv OffRL OnRL LM&Ro 81 3 0 01 Oct 2024
Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning Haozhe Ma Zhengding Luo Thanh Vinh Vo Kuankuan Sima Tze-Yun Leong 73 6 0 06 Aug 2024
Boosting Offline Reinforcement Learning with Action Preference Query Qisen Yang Shenzhi Wang Matthieu Lin S. Song Gao Huang OffRL 47 10 0 06 Jun 2023
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL Xi Chen Ali Ghadirzadeh Tianhe Yu Yuan Gao Jianhao Wang Wenzhe Li Bin Liang Chelsea Finn Chongjie Zhang OffRL 55 14 0 16 Mar 2022
Supported Policy Optimization for Offline Reinforcement Learning Jialong Wu Haixu Wu Zihan Qiu Jianmin Wang Mingsheng Long OffRL 47 67 0 13 Feb 2022
Versatile Offline Imitation from Observations and Examples via Regularized State-Occupancy Matching Yecheng Jason Ma Andrew Shen Dinesh Jayaraman Osbert Bastani OffRL 50 32 0 04 Feb 2022
Offline Reinforcement Learning with Implicit Q-Learning Ilya Kostrikov Ashvin Nair Sergey Levine OffRL 249 874 0 12 Oct 2021
A Minimalist Approach to Offline Reinforcement Learning Scott Fujimoto S. Gu OffRL 89 804 0 12 Jun 2021
Conservative Q-Learning for Offline Reinforcement Learning Aviral Kumar Aurick Zhou George Tucker Sergey Levine OffRL OnRL 91 1,780 0 08 Jun 2020
D4RL: Datasets for Deep Data-Driven Reinforcement Learning Justin Fu Aviral Kumar Ofir Nachum George Tucker Sergey Levine GP OffRL 174 1,338 0 15 Apr 2020
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 231 42,038 0 03 Dec 2019
Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog Natasha Jaques Asma Ghandeharioun J. Shen Craig Ferguson Àgata Lapedriza Noah J. Jones S. Gu Rosalind W. Picard OffRL 74 338 0 30 Jun 2019
Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction Aviral Kumar Justin Fu George Tucker Sergey Levine OffRL OnRL 76 1,044 0 03 Jun 2019
Learning Dexterous In-Hand Manipulation OpenAI OpenAI Marcin Andrychowicz Bowen Baker Maciek Chociej Rafal Jozefowicz ... Szymon Sidor Joshua Tobin Peter Welinder Lilian Weng Wojciech Zaremba 70 1,865 0 01 Aug 2018
Regularisation of Neural Networks by Enforcing Lipschitz Continuity Henry Gouk E. Frank Bernhard Pfahringer M. Cree 106 473 0 12 Apr 2018