Fine-Tuning Language Models for Ethical Ambiguity: A Comparative Study of Alignment with Human Responses

10 October 2024

Papers citing "Fine-Tuning Language Models for Ethical Ambiguity: A Comparative Study of Alignment with Human Responses"

2 / 2 papers shown

Title
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 387 4,139 0 29 May 2023
Aligning AI With Shared Human Values Dan Hendrycks Collin Burns Steven Basart Andrew Critch Jingkai Li Basel Alomair Jacob Steinhardt 145 569 0 05 Aug 2020