How to Leverage Demonstration Data in Alignment for Large Language
Model? A Self-Imitation Learning Perspective

How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective

14 October 2024

Yige Yuan

Papers citing "How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective"

4 / 4 papers shown

Title
InfoPO: On Mutual Information Maximization for Large Language Model Alignment Teng Xiao Zhen Ge Sujay Sanghavi Tian Wang Julian Katz-Samuels Marc Versage Qingjun Cui Trishul Chilimbi 31 0 0 13 May 2025
Preserving Cultural Identity with Context-Aware Translation Through Multi-Agent AI Systems Mahfuz Ahmed Anik Abdur Rahman Azmine Toushik Wasi Md Manjurul Ahsan 47 0 0 05 Mar 2025
SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters Teng Xiao Yige Yuan Z. Chen Mingxiao Li Shangsong Liang Z. Ren V. Honavar 95 5 0 21 Feb 2025
MITA: Bridging the Gap between Model and Data for Test-time Adaptation Yige Yuan Bingbing Xu Teng Xiao Liang Hou Fei Sun Huawei Shen Xueqi Cheng TTA 43 0 0 12 Oct 2024