DOPE: Doubly Optimistic and Pessimistic Exploration for Safe
Reinforcement Learning

v1v2v3 (latest)

DOPE: Doubly Optimistic and Pessimistic Exploration for Safe Reinforcement Learning

1 December 2021

Aria HasanzadeZonuzy

ArXiv (abs)PDF HTML

Papers citing "DOPE: Doubly Optimistic and Pessimistic Exploration for Safe Reinforcement Learning"

5 / 5 papers shown

Title
Ensuring Safety in an Uncertain Environment: Constrained MDPs via Stochastic Thresholds Qian Zuo Fengxiang He 102 0 0 07 Apr 2025
Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form Toshinori Kitamura Tadashi Kozuno Wataru Kumagai Kenta Hoshino Y. Hosoe Kazumi Kasaura Masashi Hamaya Paavo Parmas Yutaka Matsuo 161 2 0 29 Aug 2024
A safe exploration approach to constrained Markov decision processes Tingting Ni Maryam Kamgarpour 113 3 0 01 Dec 2023
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs Dongsheng Ding Chen-Yu Wei Jianchao Tan Alejandro Ribeiro 125 22 0 20 Jun 2023
Exploration in Deep Reinforcement Learning: From Single-Agent to Multiagent Domain Jianye Hao Tianpei Yang Hongyao Tang Chenjia Bai Jinyi Liu Zhaopeng Meng Peng Liu Zhen Wang OffRL 86 103 0 14 Sep 2021