Multi-Domain Explainability of Preferences

Multi-Domain Explainability of Preferences

26 May 2025

Papers citing "Multi-Domain Explainability of Preferences"

16 / 16 papers shown

Title
Interpreting Language Reward Models via Contrastive Explanations Junqi Jiang Tom Bewley Saumitra Mishra Freddy Lecue Manuela Veloso 99 2 0 25 Nov 2024
RewardBench: Evaluating Reward Models for Language Modeling Nathan Lambert Valentina Pyatkin Jacob Morrison Lester James V. Miranda Bill Yuchen Lin ... Sachin Kumar Tom Zick Yejin Choi Noah A. Smith Hanna Hajishirzi ALM 96 240 0 20 Mar 2024
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference Wei-Lin Chiang Lianmin Zheng Ying Sheng Anastasios Nikolas Angelopoulos Tianle Li ... Hao Zhang Banghua Zhu Michael I. Jordan Joseph E. Gonzalez Ion Stoica OSLM 66 536 0 07 Mar 2024
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals Y. Gat Nitay Calderon Amir Feder Alexander Chapanin Amit Sharma Roi Reichart 59 30 0 01 Oct 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 165 4,085 0 09 Jun 2023
Measuring the Robustness of NLP Models to Domain Shifts Nitay Calderon Naveh Porat Eyal Ben-David Alexander Chapanin Zorik Gekhman Nadav Oved Vitaly Shalumov Roi Reichart 59 8 0 31 May 2023
The False Promise of Imitating Proprietary LLMs Arnav Gudibande Eric Wallace Charles Burton Snell Xinyang Geng Hao Liu Pieter Abbeel Sergey Levine Dawn Song ALM 77 202 0 25 May 2023
Towards Faithful Model Explanation in NLP: A Survey Qing Lyu Marianna Apidianaki Chris Callison-Burch XAI 122 115 0 22 Sep 2022
Multi-Task Learning in Natural Language Processing: An Overview Shijie Chen Yu Zhang Qiang Yang AIMat 46 104 0 19 Sep 2021
DEMix Layers: Disentangling Domains for Modular Language Modeling Suchin Gururangan Michael Lewis Ari Holtzman Noah A. Smith Luke Zettlemoyer KELM MoE 41 129 0 11 Aug 2021
Concept Bottleneck Models Pang Wei Koh Thao Nguyen Y. S. Tang Stephen Mussmann Emma Pierson Been Kim Percy Liang 61 801 0 09 Jul 2020
CausaLM: Causal Model Explanation Through Counterfactual Language Models Amir Feder Nadav Oved Uri Shalit Roi Reichart CML LRM 56 158 0 27 May 2020
Longformer: The Long-Document Transformer Iz Beltagy Matthew E. Peters Arman Cohan RALM VLM 57 3,996 0 10 Apr 2020
Evaluating Saliency Map Explanations for Convolutional Neural Networks: A User Study Ahmed Alqaraawi M. Schuessler Philipp Weiß Enrico Costanza N. Bianchi-Berthouze AAML FAtt XAI 33 199 0 03 Feb 2020
Explanation in Artificial Intelligence: Insights from the Social Sciences Tim Miller XAI 198 4,229 0 22 Jun 2017
Frustratingly Easy Domain Adaptation Hal Daumé 59 1,795 0 10 Jul 2009