Towards A Unified Policy Abstraction Theory and Representation Learning Approach in Markov Decision Processes

16 September 2022

Hao Fei

Hongyao Tang

Jianye Hao

Yan Zheng

OffRL

ArXiv (abs)PDF HTML

Papers citing "Towards A Unified Policy Abstraction Theory and Representation Learning Approach in Markov Decision Processes"

22 / 22 papers shown

Title
PAnDR: Fast Adaptation to New Environments from Offline Experiences via Decoupling Policy and Environment Representations Tong Sang Hongyao Tang Yi-An Ma Jianye Hao Yan Zheng Zhaopeng Meng Boyan Li Zhen Wang OffRL 65 5 0 06 Apr 2022
Reward-Free Policy Space Compression for Reinforcement Learning Mirco Mutti Stefano Del Col Marcello Restelli 36 3 0 22 Feb 2022
VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning Adrien Bardes Jean Ponce Yann LeCun SSL DML 153 945 0 11 May 2021
Benchmarks for Deep Off-Policy Evaluation Justin Fu Mohammad Norouzi Ofir Nachum George Tucker Ziyun Wang ... Yutian Chen Aviral Kumar Cosmin Paduraru Sergey Levine T. Paine ELM OffRL 82 104 0 30 Mar 2021
Structured Policy Representation: Imposing Stability in arbitrarily conditioned dynamic systems Julen Urain Davide Tateo Tianyu Ren Jan Peters 20 1 0 11 Dec 2020
General Characterization of Agents by States they Visit Anssi Kanervisto Tomi Kinnunen Ville Hautamaki 51 3 0 02 Dec 2020
What About Inputing Policy in Value Function: Policy Representation and Policy-extended Value Function Approximator Hongyao Tang Zhaopeng Meng Jianye Hao Chong Chen D. Graves ... Hangyu Mao Wulong Liu Yaodong Yang Wenyuan Tao Li Wang OffRL 71 7 0 19 Oct 2020
Learning Invariant Representations for Reinforcement Learning without Reconstruction Amy Zhang R. McAllister Roberto Calandra Y. Gal Sergey Levine OOD SSL 126 479 0 18 Jun 2020
Parameter-Based Value Functions Francesco Faccio Louis Kirsch Jürgen Schmidhuber OffRL 80 26 0 16 Jun 2020
Policy Evaluation Networks J. Harb Tom Schaul Doina Precup Pierre-Luc Bacon OffRL 52 37 0 26 Feb 2020
AVID: Learning Multi-Stage Tasks via Pixel-Level Translation of Human Videos Laura M. Smith Nikita Dhawan Marvin Zhang Pieter Abbeel Sergey Levine 140 160 0 10 Dec 2019
Dream to Control: Learning Behaviors by Latent Imagination Danijar Hafner Timothy Lillicrap Jimmy Ba Mohammad Norouzi VLM 140 1,374 0 03 Dec 2019
Learning to Score Behaviors for Guided Policy Optimization Aldo Pacchiano Jack Parker-Holder Yunhao Tang A. Choromańska K. Choromanski Michael I. Jordan 71 39 0 11 Jun 2019
MolecularRNN: Generating realistic molecular graphs with optimized properties Mariya Popova Mykhailo Shvets Junier Oliva Olexandr Isayev GNN 77 167 0 31 May 2019
Representation Learning with Contrastive Predictive Coding Aaron van den Oord Yazhe Li Oriol Vinyals DRL SSL 356 10,369 0 10 Jul 2018
Learning Policy Representations in Multiagent Systems Aditya Grover Maruan Al-Shedivat Jayesh K. Gupta Yuri Burda Harrison Edwards AI4CE 73 125 0 17 Jun 2018
Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation Jiaxuan You Bowen Liu Rex Ying Vijay S. Pande J. Leskovec GNN 299 905 0 07 Jun 2018
Structured Evolution with Compact Architectures for Scalable Policy Optimization K. Choromanski Mark Rowland Vikas Sindhwani Richard Turner Adrian Weller 98 149 0 06 Apr 2018
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 580 19,315 0 20 Jul 2017
Generative Adversarial Imitation Learning Jonathan Ho Stefano Ermon GAN 165 3,125 0 10 Jun 2016
OpenAI Gym Greg Brockman Vicki Cheung Ludwig Pettersson Jonas Schneider John Schulman Jie Tang Wojciech Zaremba OffRL ODL 225 5,087 0 05 Jun 2016
Trust Region Policy Optimization John Schulman Sergey Levine Philipp Moritz Michael I. Jordan Pieter Abbeel 283 6,807 0 19 Feb 2015