Intentionally-underestimated Value Function at Terminal State for Temporal-difference Learning with Mis-designed Reward

24 August 2023

Papers citing "Intentionally-underestimated Value Function at Terminal State for Temporal-difference Learning with Mis-designed Reward"

2 / 2 papers shown

Title
Improvements of Dark Experience Replay and Reservoir Sampling towards Better Balance between Consolidation and Plasticity Taisuke Kobayashi CLL 41 0 0 29 Apr 2025
Soft Actor-Critic Algorithm with Truly-satisfied Inequality Constraint Taisuke Kobayashi 43 3 0 08 Mar 2023