v1v2 (latest)

CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives

15 April 2025

Papers citing "CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives"

26 / 26 papers shown

Title
GPT-4o System Card OpenAI OpenAI : Aaron Hurst Adam Lerer Adam P. Goucher ... Yuchen He Yuchen Zhang Yujia Jin Yunxing Dai Yury Malkov MLLM 199 984 0 25 Oct 2024
Can Language Models Reason about Individualistic Human Values and Preferences? Liwei Jiang Taylor Sorensen Sydney Levine Yejin Choi 97 13 0 04 Oct 2024
DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life Yu Ying Chiu Liwei Jiang Yejin Choi 108 9 0 03 Oct 2024
ProgressGym: Alignment with a Millennium of Moral Progress Tianyi Qiu Yang Zhang Xuchuan Huang Jasmine Xinze Li Yalan Qin Yaodong Yang AI4TS 75 7 0 28 Jun 2024
Language Models are Alignable Decision-Makers: Dataset and Application to the Medical Triage Domain Brian Hu Bill Ray Alice Leung Amy Summerville David Joy Christopher Funk Arslan Basharat 79 5 0 10 Jun 2024
GreedLlama: Performance of Financial Value-Aligned Large Language Models in Moral Reasoning Jeffy Yu Maximilian Huber Kevin Tang 56 2 0 03 Apr 2024
Steering Llama 2 via Contrastive Activation Addition Nina Rimsky Nick Gabrieli Julian Schulz Meg Tong Evan Hubinger Alexander Matt Turner LLMSV 57 220 0 09 Dec 2023
On the steerability of large language models toward data-driven personas Junyi Li Ninareh Mehrabi Charith Peris Palash Goyal Kai-Wei Chang Aram Galstyan Richard Zemel Rahul Gupta 121 36 0 08 Nov 2023
MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks Allen Nie Yuhui Zhang Atharva Amdekar Chris Piech Tatsunori Hashimoto Tobias Gerstenberg 66 40 0 30 Oct 2023
SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF Yi Dong Zhilin Wang Makesh Narsimhan Sreedhar Xianchao Wu Oleksii Kuchaiev ALM LLMSV 86 72 0 09 Oct 2023
Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties Taylor Sorensen Liwei Jiang Jena D. Hwang Sydney Levine Valentina Pyatkin ... Kavel Rao Chandra Bhagavatula Maarten Sap J. Tasioulas Yejin Choi SLR 88 58 0 02 Sep 2023
Evaluating the Moral Beliefs Encoded in LLMs Nino Scherrer Claudia Shi Amir Feder David M. Blei 75 137 0 26 Jul 2023
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance Qianqian Xie Weiguang Han Xiao Zhang Yanzhao Lai Min Peng Alejandro Lopez-Lira Jimin Huang ALM 72 159 0 08 Jun 2023
NLPositionality: Characterizing Design Biases of Datasets and Models Sebastin Santy Jenny T Liang Ronan Le Bras Katharina Reinecke Maarten Sap 88 82 0 02 Jun 2023
Word Embeddings Are Steers for Language Models Chi Han Jialiang Xu Manling Li Yi R. Fung Chenkai Sun Nan Jiang Tarek Abdelzaher Heng Ji LLMSV 76 41 0 22 May 2023
Whose Opinions Do Language Models Reflect? Shibani Santurkar Esin Durmus Faisal Ladhak Cinoo Lee Percy Liang Tatsunori Hashimoto 81 442 0 30 Mar 2023
A Brief Report on LawGPT 1.0: A Virtual Legal Assistant Based on GPT-3 Nguyen Ha Thanh ELM AILaw 52 54 0 11 Feb 2023
Everyone's Voice Matters: Quantifying Annotation Disagreement Using Demographic Information Ruyuan Wan Jaehyung Kim Dongyeop Kang 45 37 0 12 Jan 2023
Large Language Models Encode Clinical Knowledge K. Singhal Shekoofeh Azizi T. Tu S. S. Mahdavi Jason W. Wei ... A. Rajkomar Joelle Barral Christopher Semturs Alan Karthikesalingam Vivek Natarajan LM&MA ELM AI4MH 149 2,352 0 26 Dec 2022
Can Machines Learn Morality? The Delphi Experiment Liwei Jiang Jena D. Hwang Chandra Bhagavatula Ronan Le Bras Jenny T Liang ... Yulia Tsvetkov Oren Etzioni Maarten Sap Regina A. Rini Yejin Choi FaML 184 121 0 14 Oct 2021
Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents Chaojun Xiao Xueyu Hu Zhiyuan Liu Cunchao Tu Maosong Sun AILaw ELM 98 242 0 09 May 2021
Moral Stories: Situated Reasoning about Norms, Intents, Actions, and their Consequences Denis Emelin Ronan Le Bras Jena D. Hwang Maxwell Forbes Yejin Choi LRM 110 134 0 31 Dec 2020
Social Chemistry 101: Learning to Reason about Social and Moral Norms Maxwell Forbes Jena D. Hwang Vered Shwartz Maarten Sap Yejin Choi 52 271 0 01 Nov 2020
Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life Anecdotes Nicholas Lourie Ronan Le Bras Yejin Choi 52 125 0 20 Aug 2020
Aligning AI With Shared Human Values Dan Hendrycks Collin Burns Steven Basart Andrew Critch Jingkai Li Basel Alomair Jacob Steinhardt 145 569 0 05 Aug 2020
Plug and Play Language Models: A Simple Approach to Controlled Text Generation Sumanth Dathathri Andrea Madotto Janice Lan Jane Hung Eric Frank Piero Molino J. Yosinski Rosanne Liu KELM 147 976 0 04 Dec 2019