Weak Human Preference Supervision For Deep Reinforcement Learning

25 July 2020

Papers citing "Weak Human Preference Supervision For Deep Reinforcement Learning"

2 / 2 papers shown

Title
DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning Utsav Singh Souradip Chakraborty Wesley A Suttle Brian M. Sadler Vinay P. Namboodiri Amrit Singh Bedi OffRL 53 0 0 03 Jan 2025
Skill Preferences: Learning to Extract and Execute Robotic Skills from Human Feedback Xiaofei Wang Kimin Lee Kourosh Hakhamaneshi Pieter Abbeel Michael Laskin 34 42 0 11 Aug 2021