Off-Policy Average Reward Actor-Critic with Deterministic Policy Search

20 May 2023

Papers citing "Off-Policy Average Reward Actor-Critic with Deterministic Policy Search"

8 / 8 papers shown

Title
Towards Optimal Offline Reinforcement Learning Mengmeng Li Daniel Kuhn Tobias Sutter OffRL 67 0 0 15 Mar 2025
Average-Reward Reinforcement Learning with Entropy Regularization Jacob Adamczyk Volodymyr Makarenko Stas Tiomkin R. Kulkarni OOD 61 2 0 17 Jan 2025
An Empirical Study of Deep Reinforcement Learning in Continuing Tasks Yi Wan D. Korenkevych Zheqing Zhu OffRL CLL 55 0 0 12 Jan 2025
Average Reward Reinforcement Learning for Wireless Radio Resource Management Kun Yang Jing Yang Cong Shen 59 1 0 12 Jan 2025
NeoRL: Efficient Exploration for Nonepisodic RL Bhavya Sukhija Lenart Treven Florian Dorfler Stelian Coros Andreas Krause OffRL 41 0 0 03 Jun 2024
Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning Tenglong Liu Yang Li Yixing Lan Hao Gao Wei Pan Xin Xu OffRL 41 5 0 30 May 2024
Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline Wenjia Meng Qian Zheng Long Yang Yilong Yin Gang Pan OffRL 39 0 0 04 May 2024
When Do Off-Policy and On-Policy Policy Gradient Methods Align? Davide Mambelli Stephan Bongers O. Zoeter M. Spaan F. Oliehoek OffRL 26 0 0 19 Feb 2024