Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models

17 February 2025

Papers citing "Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models"

1 / 1 papers shown

Title
Ethics and Persuasion in Reinforcement Learning from Human Feedback: A Procedural Rhetorical Approach Shannon Lodoen Alexi Orchard 20 0 0 14 May 2025