The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield
Better Language Models

The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models

9 October 2024

Dawei Zhu

Wei Zhang

Xiaoyu Shen

Papers citing "The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models"

Title
No papers