Exploring and Addressing Reward Confusion in Offline Preference Learning

22 July 2024

Papers citing "Exploring and Addressing Reward Confusion in Offline Preference Learning"

1 / 1 papers shown

Title
Defining and Characterizing Reward Hacking Joar Skalse Nikolaus H. R. Howe Dmitrii Krasheninnikov David M. Krueger 59 56 0 27 Sep 2022