Heterogeneous Value Alignment Evaluation for Large Language Models

v1v2v3 (latest)

Heterogeneous Value Alignment Evaluation for Large Language Models

26 May 2023

ArXiv (abs)PDF HTML

Papers citing "Heterogeneous Value Alignment Evaluation for Large Language Models"

7 / 7 papers shown

Title
Personality Alignment of Large Language Models Minjun Zhu Linyi Yang Yue Zhang Yue Zhang ALM 117 8 0 21 Aug 2024
High-Dimension Human Value Representation in Large Language Models Samuel Cahyawijaya Delong Chen Yejin Bang Leila Khalatbari Bryan Wilie Ziwei Ji Etsuko Ishii Pascale Fung 185 6 0 11 Apr 2024
Constitutional AI: Harmlessness from AI Feedback Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell John Kernion ... Dario Amodei Nicholas Joseph Sam McCandlish Tom B. Brown Jared Kaplan SyDa MoMe 214 1,646 0 15 Dec 2022
A General Language Assistant as a Laboratory for Alignment Amanda Askell Yuntao Bai Anna Chen Dawn Drain Deep Ganguli ... Tom B. Brown Jack Clark Sam McCandlish C. Olah Jared Kaplan ALM 120 790 0 01 Dec 2021
Evaluating Large Language Models Trained on Code Mark Chen Jerry Tworek Heewoo Jun Qiming Yuan Henrique Pondé ... Bob McGrew Dario Amodei Sam McCandlish Ilya Sutskever Wojciech Zaremba ELM ALM 238 5,665 0 07 Jul 2021
Value Alignment Verification Daniel S. Brown Jordan Jack Schneider Anca D. Dragan S. Niekum 69 31 0 02 Dec 2020
AI virtues -- The missing link in putting AI ethics into practice Thilo Hagendorff 72 59 0 25 Nov 2020