Reward Collapse in Aligning Large Language Models

Reward Collapse in Aligning Large Language Models

28 May 2023

Tianle Cai

Weijie J. Su

ArXiv (abs)PDF HTML

Papers citing "Reward Collapse in Aligning Large Language Models"

4 / 4 papers shown

Title
Contextual Online Uncertainty-Aware Preference Learning for Human Feedback Nan Lu Ethan X. Fang Junwei Lu 420 0 0 27 Apr 2025
Simplify RLHF as Reward-Weighted SFT: A Variational Method Yuhao Du Zehan Li Pengyu Cheng Zhihong Chen Yuejiao Xie Xiang Wan Anningzhe Gao 115 1 0 20 Feb 2025
PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning Shiva K. Pentyala Zhichao Wang Bin Bi Kiran Ramnath Xiang-Bo Mao Regunathan Radhakrishnan S. Asur Na Cheng MoMe 49 8 0 25 Jun 2024
Leftover Lunch: Advantage-based Offline Reinforcement Learning for Language Models Ashutosh Baheti Ximing Lu Faeze Brahman Ronan Le Bras Maarten Sap Mark O. Riedl 114 10 0 24 May 2023

We use cookies and other tracking technologies to improve your browsing experience on our website, to show you personalized content and targeted ads, to analyze our website traffic, and to understand where our visitors are coming from. See our policy.