Bidirectional Model-based Policy Optimization

Bidirectional Model-based Policy Optimization

4 July 2020

Yong Yu

Papers citing "Bidirectional Model-based Policy Optimization"

14 / 14 papers shown

Title
Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets Haoran He C. Chang Huazhe Xu Ling Pan 89 6 0 03 Jun 2024
Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption Bernd Frauenknecht Artur Eisele Devdutt Subhasish Friedrich Solowjow Sebastian Trimpe 49 5 0 29 May 2024
Backward Learning for Goal-Conditioned Policies Marc Höftmann Jan Robine Stefan Harmeling 37 1 0 08 Dec 2023
Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control via Sample Multiple Reuse Jiafei Lyu Le Wan Zongqing Lu Xiu Li OffRL 36 9 0 29 May 2023
Beware of Instantaneous Dependence in Reinforcement Learning Zhengmao Zhu Yu-Ren Liu Hong Tian Yang Yu Kun Zhang OffRL 36 1 0 09 Mar 2023
Is Model Ensemble Necessary? Model-based RL via a Single Model with Lipschitz Regularized Value Function Ruijie Zheng Xiyao Wang Huazhe Xu Furong Huang 48 13 0 02 Feb 2023
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size Alexander Nikulin Vladislav Kurenkov Denis Tarasov Dmitry Akimov Sergey Kolesnikov OffRL 33 14 0 20 Nov 2022
Model-based Reinforcement Learning with Multi-step Plan Value Estimation Hao-Chu Lin Yihao Sun Jiajin Zhang Yang Yu OffRL 37 7 0 12 Sep 2022
Backward Imitation and Forward Reinforcement Learning via Bi-directional Model Rollouts Yuxin Pan Fangzhen Lin OffRL 22 3 0 04 Aug 2022
A Survey on Model-based Reinforcement Learning Fan Luo Tian Xu Hang Lai Xiong-Hui Chen Weinan Zhang Yang Yu OffRL LRM 50 101 0 19 Jun 2022
Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent Reinforcement Learning Zhiwei Xu Dapeng Li Bin Zhang Yuan Zhan Yunru Bai Guoliang Fan OffRL 27 7 0 20 Apr 2022
ED2: Environment Dynamics Decomposition World Models for Continuous Control Jianye Hao Yifu Yuan Cong Wang Zhen Wang OffRL 16 1 0 06 Dec 2021
Dropout Q-Functions for Doubly Efficient Reinforcement Learning Takuya Hiraoka Takahisa Imagawa Taisei Hashimoto Takashi Onishi Yoshimasa Tsuruoka 11 105 0 05 Oct 2021
Dynamic Horizon Value Estimation for Model-based Reinforcement Learning Junjie Wang Qichao Zhang Dongbin Zhao Mengchen Zhao Jianye Hao OffRL 8 5 0 21 Sep 2020