CycleAlign: Iterative Distillation from Black-box LLM to White-box
Models for Better Human Alignment

CycleAlign: Iterative Distillation from Black-box LLM to White-box Models for Better Human Alignment

25 October 2023

Ji Zhang

Rui Yan

Papers citing "CycleAlign: Iterative Distillation from Black-box LLM to White-box Models for Better Human Alignment"

12 / 12 papers shown

Title
A Survey on Data Synthesis and Augmentation for Large Language Models Ke Wang Jiahui Zhu Minjie Ren Ziqiang Liu Shiwei Li ... Chenkai Zhang Xiaoyu Wu Qiqi Zhan Qingjie Liu Yunhong Wang SyDa 40 18 0 16 Oct 2024
Towards a Unified View of Preference Learning for Large Language Models: A Survey Bofei Gao Feifan Song Yibo Miao Zefan Cai Zhengyuan Yang ... Houfeng Wang Zhifang Sui Peiyi Wang Baobao Chang Baobao Chang 53 11 0 04 Sep 2024
DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity Xiaoyu Lin Xinkai Yu Ankit Aich Salvatore Giorgi Lyle Ungar ALM 42 0 0 30 Aug 2024
High-Dimension Human Value Representation in Large Language Models Samuel Cahyawijaya Delong Chen Yejin Bang Leila Khalatbari Bryan Wilie Ziwei Ji Etsuko Ishii Pascale Fung 71 5 0 11 Apr 2024
On Protecting the Data Privacy of Large Language Models (LLMs): A Survey Biwei Yan Kun Li Minghui Xu Yueyan Dong Yue Zhang Zhaochun Ren Xiuzhen Cheng AILaw PILM 70 76 0 08 Mar 2024
"In Dialogues We Learn": Towards Personalized Dialogue Without Pre-defined Profiles through In-Dialogue Learning Chuanqi Cheng Quan Tu Wei Yu Wu Shuo Shang Cunli Mao Zhengtao Yu Rui Yan 36 2 0 05 Mar 2024
A Survey on Knowledge Distillation of Large Language Models Xiaohan Xu Ming Li Chongyang Tao Tao Shen Reynold Cheng Jinyang Li Can Xu Dacheng Tao Dinesh Manocha KELM VLM 44 101 0 20 Feb 2024
ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization Feifan Song Yuxuan Fan Xin Zhang Peiyi Wang Houfeng Wang 32 8 0 14 Feb 2024
Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use Yuhan Chen Ang Lv Ting-En Lin C. Chen Yuchuan Wu Fei Huang Yongbin Li Rui Yan 23 24 0 07 Dec 2023
Aligning Large Language Models through Synthetic Feedback Sungdong Kim Sanghwan Bae Jamin Shin Soyoung Kang Donghyun Kwak Kang Min Yoo Minjoon Seo ALM SyDa 81 67 0 23 May 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 328 11,953 0 04 Mar 2022
ZeRO-Offload: Democratizing Billion-Scale Model Training Jie Ren Samyam Rajbhandari Reza Yazdani Aminabadi Olatunji Ruwase Shuangyang Yang Minjia Zhang Dong Li Yuxiong He MoE 177 414 0 18 Jan 2021