Statistical Impossibility and Possibility of Aligning LLMs with Human Preferences: From Condorcet Paradox to Nash Equilibrium

14 March 2025

Papers citing "Statistical Impossibility and Possibility of Aligning LLMs with Human Preferences: From Condorcet Paradox to Nash Equilibrium"

6 / 6 papers shown

Title
Theoretical Tensions in RLHF: Reconciling Empirical Success with Inconsistencies in Social Choice Theory Jiancong Xiao Zhekun Shi Kaizhao Liu Q. Long Weijie J. Su 32 0 0 14 Jun 2025
Doubly Robust Alignment for Large Language Models Erhan Xu Kai Ye Hongyi Zhou Luhan Zhu Francesco Quinzan Chengchun Shi 42 0 0 01 Jun 2025
Fundamental Limits of Game-Theoretic LLM Alignment: Smith Consistency and Preference Matching Zhekun Shi Kaizhao Liu Qi Long Weijie J. Su Jiancong Xiao 43 2 0 27 May 2025
Do Large Language Models (Really) Need Statistical Foundations? Weijie Su 274 0 0 25 May 2025
Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach Jiancong Xiao Bojian Hou Zhanliang Wang Ruochen Jin Q. Long Weijie Su Li Shen 104 2 0 04 May 2025
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning Kai Ye Hongyi Zhou Jin Zhu Francesco Quinzan C. Shi 95 4 0 03 Apr 2025