Off-Policy Reinforcement Learning with Delayed Rewards

22 June 2021

Papers citing "Off-Policy Reinforcement Learning with Delayed Rewards"

5 / 5 papers shown

Title
Off-Beat Multi-Agent Reinforcement Learning Wei Qiu Weixun Wang R. Wang Bo An Yujing Hu S. Obraztsova Zinovi Rabinovich Jianye Hao Yingfeng Chen Changjie Fan OffRL 29 2 0 27 May 2022
Learning Guidance Rewards with Trajectory-space Smoothing Tanmay Gangwani Yuanshuo Zhou Jian Peng 26 33 0 23 Oct 2020
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 340 1,960 0 04 May 2020
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 386 11,700 0 09 Mar 2017
Off-Policy Actor-Critic T. Degris Martha White R. Sutton OffRL CML 163 220 0 22 May 2012