Reward Collapse in Aligning Large Language Models

Reward Collapse in Aligning Large Language Models

28 May 2023

Tianle Cai

Weijie J. Su

ArXiv (abs)PDF HTML

Papers citing "Reward Collapse in Aligning Large Language Models"

4 / 4 papers shown

Title
Contextual Online Uncertainty-Aware Preference Learning for Human Feedback Nan Lu Ethan X. Fang Junwei Lu 420 0 0 27 Apr 2025
Simplify RLHF as Reward-Weighted SFT: A Variational Method Yuhao Du Zehan Li Pengyu Cheng Zhihong Chen Yuejiao Xie Xiang Wan Anningzhe Gao 115 1 0 20 Feb 2025
PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning Shiva K. Pentyala Zhichao Wang Bin Bi Kiran Ramnath Xiang-Bo Mao Regunathan Radhakrishnan S. Asur Na Cheng MoMe 55 8 0 25 Jun 2024
Leftover Lunch: Advantage-based Offline Reinforcement Learning for Language Models Ashutosh Baheti Ximing Lu Faeze Brahman Ronan Le Bras Maarten Sap Mark O. Riedl 118 10 0 24 May 2023