Quantile Regression for Distributional Reward Models in RLHF

Quantile Regression for Distributional Reward Models in RLHF

16 September 2024

Nicolai Dorka

ArXiv (abs)PDF HTML Github (2★)

Papers citing "Quantile Regression for Distributional Reward Models in RLHF"

11 / 11 papers shown

Title
PersonaFeedback: A Large-scale Human-annotated Benchmark For Personalization Meiling Tao Chenghao Zhu Dongyi Ding Tiannan Wang Yuchen Eleanor Jiang Wangchunshu Zhou 24 0 0 15 Jun 2025
Reward Model Interpretability via Optimal and Pessimal Tokens Brian Christian Hannah Rose Kirk Jessica A.F. Thompson Christopher Summerfield Tsvetomira Dumbalska AAML 10 0 0 08 Jun 2025
Multi-Domain Explainability of Preferences Nitay Calderon Liat Ein-Dor Roi Reichart LRM 58 0 0 26 May 2025
Does Chain-of-Thought Reasoning Really Reduce Harmfulness from Jailbreaking? Chengda Lu Xiaoyu Fan Yu Huang Rongwu Xu Jijie Li Wei Xu LRM 66 0 0 23 May 2025
A Systematic Analysis of Base Model Choice for Reward Modeling Kian Ahrabian Pegah Jandaghi Negar Mokhberian Sai Praneeth Karimireddy Jay Pujara 131 0 0 16 May 2025
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning Xiaokun Wang Chris Jiangbo Pei Wei Shen Yi Peng ... Ai Jian Tianyidan Xie Xuchen Song Yang Liu Yahui Zhou OffRL LRM 125 2 0 12 May 2025
OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM Responses Angela Lopez-Cardona Sebastian Idesis Miguel Barreda-Ángeles Sergi Abadal Ioannis Arapakis 140 0 0 13 Mar 2025
Dataset Featurization: Uncovering Natural Language Features through Unsupervised Data Reconstruction Michal Bravansky Vaclav Kubon Suhas Hariharan Robert Kirk 130 1 0 24 Feb 2025
Reinforcement Learning Enhanced LLMs: A Survey Shuhe Wang Shengyu Zhang Jing Zhang Runyi Hu Xiaoya Li Tianwei Zhang Jiwei Li Leilei Gan G. Wang Eduard H. Hovy OffRL 245 16 0 05 Dec 2024
Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown Xingzhou Lou Dong Yan Wei Shen Yuzi Yan Jian Xie Junge Zhang 201 28 0 01 Oct 2024
Conditional Quantile Estimation for Uncertain Watch Time in Short-Video Recommendation Chengzhi Lin Shuchang Liu Chuyuan Wang Yongqi Liu 65 4 0 17 Jul 2024