OMPO: A Unified Framework for RL under Policy and Dynamics Shifts

29 May 2024

Papers citing "OMPO: A Unified Framework for RL under Policy and Dynamics Shifts"

24 / 24 papers shown

Title
Skill Expansion and Composition in Parameter Space Tenglong Liu Junjie Li Yinan Zheng Haoyi Niu Yixing Lan Xin Xu Xianyuan Zhan 103 4 0 09 Feb 2025
Dual Alignment Maximin Optimization for Offline Model-based RL Chi Zhou Wang Luo Haoran Li Congying Han Tiande Guo Zicheng Zhang OffRL 112 0 0 02 Feb 2025
State Regularized Policy Optimization on Data with Dynamics Shift Zhenghai Xue Qingpeng Cai Shuchang Liu Dong Zheng Peng Jiang Kun Gai Bo An OffRL 51 18 0 06 Jun 2023
Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization Haoran Xu Li Jiang Jianxiong Li Zhuoran Yang Zhaoran Wang Victor Chan Xianyuan Zhan OffRL 71 83 0 28 Mar 2023
When is Realizability Sufficient for Off-Policy Reinforcement Learning? Andrea Zanette OffRL 36 14 0 10 Nov 2022
When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning Haoyi Niu Shubham Sharma Yiwen Qiu Ming Li Guyue Zhou Jianming Hu Xianyuan Zhan OffRL OnRL 84 50 0 27 Jun 2022
Versatile Offline Imitation from Observations and Examples via Regularized State-Occupancy Matching Yecheng Jason Ma Andrew Shen Dinesh Jayaraman Osbert Bastani OffRL 55 32 0 04 Feb 2022
Understanding Domain Randomization for Sim-to-real Transfer Xiaoyu Chen Jiachen Hu Chi Jin Lihong Li Liwei Wang 162 116 0 07 Oct 2021
Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences Alan Chan Hugo Silva Sungsu Lim Tadashi Kozuno A. R. Mahmood Martha White 46 30 0 17 Jul 2021
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation Jongmin Lee Wonseok Jeon Byung-Jun Lee J. Pineau Kee-Eung Kim OffRL 147 99 0 21 Jun 2021
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL Catherine Cang Aravind Rajeswaran Pieter Abbeel Michael Laskin OffRL 63 29 0 16 Jun 2021
Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch Luca Viano Yu-ting Huang Parameswaran Kamalaruban Adrian Weller Volkan Cevher 66 28 0 02 Jul 2020
Off-Dynamics Reinforcement Learning: Training for Transfer with Domain Classifiers Benjamin Eysenbach Swapnil Asawa Shreyas Chaudhari Sergey Levine Ruslan Salakhutdinov 60 94 0 24 Jun 2020
Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors Jingliang Duan Yang Guan Shengbo Eben Li Yangang Ren B. Cheng OffRL 46 178 0 09 Jan 2020
AlgaeDICE: Policy Gradient from Arbitrary Experience Ofir Nachum Bo Dai Ilya Kostrikov Yinlam Chow Lihong Li Dale Schuurmans OffRL 134 241 0 04 Dec 2019
When to Trust Your Model: Model-Based Policy Optimization Michael Janner Justin Fu Marvin Zhang Sergey Levine OffRL 83 948 0 19 Jun 2019
Is the Policy Gradient a Gradient? Chris Nota Philip S. Thomas 56 59 0 17 Jun 2019
DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections Ofir Nachum Yinlam Chow Bo Dai Lihong Li OffRL 125 334 0 10 Jun 2019
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 444 18,931 0 20 Jul 2017
Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World Joshua Tobin Rachel Fong Alex Ray Jonas Schneider Wojciech Zaremba Pieter Abbeel 220 2,959 0 20 Mar 2017
Safe and Efficient Off-Policy Reinforcement Learning Rémi Munos T. Stepleton Anna Harutyunyan Marc G. Bellemare OffRL 138 615 0 08 Jun 2016
OpenAI Gym Greg Brockman Vicki Cheung Ludwig Pettersson Jonas Schneider John Schulman Jie Tang Wojciech Zaremba OffRL ODL 204 5,073 0 05 Jun 2016
Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning Philip S. Thomas Emma Brunskill OffRL 354 576 0 04 Apr 2016
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves Ioannis Antonoglou Daan Wierstra Martin Riedmiller 114 12,201 0 19 Dec 2013