GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets

19 October 2024

Papers citing "GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets"

1 / 1 papers shown

Title
DPO Meets PPO: Reinforced Token Optimization for RLHF Han Zhong Zikang Shan Guhao Feng Wei Xiong Xinle Cheng Li Zhao Di He Jiang Bian Liwei Wang 147 72 0 29 Apr 2024