HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation

v1v2 (latest)

HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation

29 April 2025

Cristina Garbacea

ArXiv (abs)PDF HTML

Papers citing "HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation"

13 / 13 papers shown

Title
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 380 2,000 0 22 Jan 2025
BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data Wenkai Li Jiarui Liu Andy Liu Xuhui Zhou Mona Diab Maarten Sap 119 10 0 21 Oct 2024
Scaling Synthetic Data Creation with 1,000,000,000 Personas Tao Ge Xin Chan Dian Yu Haitao Mi Dong Yu Dong Yu SyDa 203 150 0 28 Jun 2024
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Tinghao Xie Xiangyu Qi Yi Zeng Yangsibo Huang Udari Madhushani Sehwag ... Bo Li Kai Li Danqi Chen Peter Henderson Prateek Mittal ALM ELM 156 77 0 20 Jun 2024
Hallucination of Multimodal Large Language Models: A Survey Zechen Bai Pichao Wang Tianjun Xiao Tong He Zongbo Han Zheng Zhang Mike Zheng Shou VLM LRM 210 197 0 29 Apr 2024
A General Theoretical Paradigm to Understand Learning from Human Preferences M. G. Azar Mark Rowland Bilal Piot Daniel Guo Daniele Calandriello Michal Valko Rémi Munos 180 645 0 18 Oct 2023
Aligning Language Models to User Opinions EunJeong Hwang Bodhisattwa Prasad Majumder Niket Tandon 79 74 0 24 May 2023
LaMP: When Large Language Models Meet Personalization Alireza Salemi Sheshera Mysore Michael Bendersky Hamed Zamani RALM 100 239 0 22 Apr 2023
Whose Opinions Do Language Models Reflect? Shibani Santurkar Esin Durmus Faisal Ladhak Cinoo Lee Percy Liang Tatsunori Hashimoto 83 446 0 30 Mar 2023
Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback Hannah Rose Kirk Bertie Vidgen Paul Röttger Scott A. Hale 80 106 0 09 Mar 2023
So Different Yet So Alike! Constrained Unsupervised Text Style Transfer Abhinav Ramesh Kashyap Devamanyu Hazarika Min-Yen Kan Roger Zimmermann Soujanya Poria GAN 64 14 0 09 May 2022
Personalizing Dialogue Agents: I have a dog, do you have pets too? Saizheng Zhang Emily Dinan Jack Urbanek Arthur Szlam Douwe Kiela Jason Weston 118 1,465 0 22 Jan 2018
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 218 3,377 0 12 Jun 2017