Direct Preference Optimization: Your Language Model is Secretly a Reward
Model

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

29 May 2023

Rafael Rafailov

Christopher D. Manning

Papers citing "Direct Preference Optimization: Your Language Model is Secretly a Reward Model"

0 / 508 papers shown

Title
No papers