v1v2 (latest)

Interpreting Language Reward Models via Contrastive Explanations

25 November 2024

Papers citing "Interpreting Language Reward Models via Contrastive Explanations"

37 / 37 papers shown

Title
Multi-Domain Explainability of Preferences Nitay Calderon Liat Ein-Dor Roi Reichart LRM 56 0 0 26 May 2025
Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs Chris Yuhao Liu Liang Zeng Qingbin Liu Rui Yan Jujie He Chaojie Wang Shuicheng Yan Yang Liu Yahui Zhou AI4TS 111 116 0 24 Oct 2024
OffsetBias: Leveraging Debiased Data for Tuning Evaluators Junsoo Park Seungyeon Jwa Meiying Ren Daeyoung Kim Sanghyuk Choi ALM 87 43 0 09 Jul 2024
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts Haoxiang Wang Wei Xiong Tengyang Xie Han Zhao Tong Zhang 132 180 0 18 Jun 2024
HelpSteer2: Open-source dataset for training top-performing reward models Zhilin Wang Yi Dong Olivier Delalleau Jiaqi Zeng Gerald Shen Daniel Egert Jimmy J. Zhang Makesh Narsimhan Sreedhar Oleksii Kuchaiev AI4TS 121 108 0 12 Jun 2024
Zero-shot LLM-guided Counterfactual Generation for Text Amrita Bhattacharjee Raha Moraffah Joshua Garland Huan Liu 91 7 0 08 May 2024
LLMs for Generating and Evaluating Counterfactuals: A Comprehensive Study Van Bach Nguyen Paul Youssef Jorg Schlotterer Christin Seifert 87 18 0 26 Apr 2024
Interactive Analysis of LLMs using Meaningful Counterfactuals Furui Cheng Vilém Zouhar Robin Shing Moon Chan Daniel Fürst Hendrik Strobelt Mennatallah El-Assady 128 11 0 23 Apr 2024
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study Shusheng Xu Wei Fu Jiaxuan Gao Wenjie Ye Weiling Liu Zhiyu Mei Guangju Wang Chao Yu Yi Wu 157 165 0 16 Apr 2024
RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs Shreyas Chaudhari Pranjal Aggarwal Vishvak Murahari Tanmay Rajpurohit Ashwin Kalyan Karthik Narasimhan Ameet Deshpande Bruno Castro da Silva 91 38 0 12 Apr 2024
RewardBench: Evaluating Reward Models for Language Modeling Nathan Lambert Valentina Pyatkin Jacob Morrison Lester James V. Miranda Bill Yuchen Lin ... Sachin Kumar Tom Zick Yejin Choi Noah A. Smith Hanna Hajishirzi ALM 195 260 0 20 Mar 2024
Dense Reward for Free in Reinforcement Learning from Human Feedback Alex J. Chan Hao Sun Samuel Holt M. Schaar 94 42 0 01 Feb 2024
A Baseline Analysis of Reward Models' Ability To Accurately Analyze Foundation Models Under Distribution Shift Will LeVine Benjamin Pikus Tony Chen Sean Hendryx 178 10 0 21 Nov 2023
HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM Zhilin Wang Yi Dong Jiaqi Zeng Virginia Adams Makesh Narsimhan Sreedhar ... Olivier Delalleau Jane Polak Scowcroft Neel Kant Aidan Swope Oleksii Kuchaiev 3DV 70 77 0 16 Nov 2023
People Make Better Edits: Measuring the Efficacy of LLM-Generated Counterfactually Augmented Data for Harmful Language Detection Indira Sen Dennis Assenmacher Mattia Samory Isabelle Augenstein Wil M.P. van der Aalst Claudia Wagner 79 21 0 02 Nov 2023
LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis Shih-Chieh Dai Aiping Xiong Lun-Wei Ku 83 75 0 23 Oct 2023
Compositional preference models for aligning LMs Dongyoung Go Tomasz Korbak Germán Kruszewski Jos Rozen Marc Dymetman 90 20 0 17 Oct 2023
Evaluating Large Language Models at Evaluating Instruction Following Zhiyuan Zeng Jiatong Yu Tianyu Gao Yu Meng Tanya Goyal Danqi Chen ELM ALM 139 192 0 11 Oct 2023
SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF Yi Dong Zhilin Wang Makesh Narsimhan Sreedhar Xianchao Wu Oleksii Kuchaiev ALM LLMSV 107 72 0 09 Oct 2023
A Long Way to Go: Investigating Length Correlations in RLHF Prasann Singhal Tanya Goyal Jiacheng Xu Greg Durrett 157 161 0 05 Oct 2023
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals Y. Gat Nitay Calderon Amir Feder Alexander Chapanin Amit Sharma Roi Reichart 133 36 0 01 Oct 2023
LLM-Assisted Content Analysis: Using Large Language Models to Support Deductive Coding Robert F. Chew John Bollenbacher Michael Wenger Jessica Speer Annice Kim ELM 58 74 0 23 Jun 2023
Supporting Qualitative Analysis with Large Language Models: Combining Codebook with GPT-3 for Deductive Coding Ziang Xiao Xingdi Yuan Q. V. Liao Rania Abdelghani Pierre-Yves Oudeyer 80 146 0 17 Apr 2023
OpenAssistant Conversations -- Democratizing Large Language Model Alignment Andreas Kopf Yannic Kilcher Dimitri von Rutte Sotiris Anagnostidis Zhi Rui Tam ... Arnav Dantuluri Andrew Maguire Christoph Schuhmann Huu Nguyen A. Mattick ALM LM&MA 151 640 0 14 Apr 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.6K 14,828 0 15 Mar 2023
Even if Explanations: Prior Work, Desiderata & Benchmarks for Semi-Factual XAI Saugat Aryal Markt. Keane 84 22 0 27 Jan 2023
Scaling Laws for Reward Model Overoptimization Leo Gao John Schulman Jacob Hilton ALM 131 569 0 19 Oct 2022
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback Yuntao Bai Andy Jones Kamal Ndousse Amanda Askell Anna Chen ... Jack Clark Sam McCandlish C. Olah Benjamin Mann Jared Kaplan 258 2,630 0 12 Apr 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 924 13,266 0 04 Mar 2022
Polyjuice: Generating Counterfactuals for Explaining, Evaluating, and Improving Models Tongshuang Wu Marco Tulio Ribeiro Jeffrey Heer Daniel S. Weld 130 250 0 01 Jan 2021
Generating Plausible Counterfactual Explanations for Deep Transformers in Financial Text Classification Linyi Yang Eoin M. Kenny T. L. J. Ng Yi Yang Barry Smyth Ruihai Dong 94 73 0 23 Oct 2020
On Generating Plausible Counterfactual and Semi-Factual Explanations for Deep Learning Eoin M. Kenny Mark T. Keane 70 102 0 10 Sep 2020
DeBERTa: Decoding-enhanced BERT with Disentangled Attention Pengcheng He Xiaodong Liu Jianfeng Gao Weizhu Chen AAML 175 2,770 0 05 Jun 2020
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.3K 12,348 0 27 Aug 2019
Counterfactual Explanations without Opening the Black Box: Automated Decisions and the GDPR Sandra Wachter Brent Mittelstadt Chris Russell MLAU 173 2,374 0 01 Nov 2017
Explanation in Artificial Intelligence: Insights from the Social Sciences Tim Miller XAI 287 4,304 0 22 Jun 2017
"Why Should I Trust You?": Explaining the Predictions of Any Classifier Marco Tulio Ribeiro Sameer Singh Carlos Guestrin FAtt FaML 1.3K 17,178 0 16 Feb 2016