Reviving The Classics: Active Reward Modeling in Large Language Model Alignment

4 February 2025

Papers citing "Reviving The Classics: Active Reward Modeling in Large Language Model Alignment"

2 / 2 papers shown

Title
A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning Yuzheng Hu Fan Wu Haotian Ye David A. Forsyth James Y. Zou Nan Jiang Jiaqi W. Ma Han Zhao OffRL 58 0 0 25 May 2025
Rethinking Diverse Human Preference Learning through Principal Component Analysis Feng Luo Rui Yang Hao Sun Chunyuan Deng Jiarui Yao Jingyan Shen Huan Zhang Hanjie Chen 2 1 0 18 Feb 2025