Efficient Exploration via Epistemic-Risk-Seeking Policy Optimization

18 February 2023

Papers citing "Efficient Exploration via Epistemic-Risk-Seeking Policy Optimization"

4 / 4 papers shown

Title
Multi-Agent Reinforcement Learning Simulation for Environmental Policy Synthesis James Rudd-Jones Mirco Musolesi María Pérez-Ortiz 34 0 0 17 Apr 2025
Confronting Reward Model Overoptimization with Constrained RLHF Ted Moskovitz Aaditya K. Singh DJ Strouse T. Sandholm Ruslan Salakhutdinov Anca D. Dragan Stephen Marcus McAleer 34 47 0 06 Oct 2023
On the connection between Bregman divergence and value in regularized Markov decision processes Brendan O'Donoghue OffRL 23 2 0 21 Oct 2022
On Linear Convergence of Policy Gradient Methods for Finite MDPs Jalaj Bhandari Daniel Russo 59 59 0 21 Jul 2020