Title
Zephyr: Direct Distillation of LM Alignment Lewis Tunstall E. Beeching Nathan Lambert Nazneen Rajani Kashif Rasul ... Nathan Habib Nathan Sarrazin Omar Sanseviero Alexander M. Rush Thomas Wolf ALM 107 398 0 25 Oct 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 389 4,163 0 29 May 2023
Aligning Large Language Models through Synthetic Feedback Sungdong Kim Sanghwan Bae Jamin Shin Soyoung Kang Donghyun Kwak Kang Min Yoo Minjoon Seo ALM SyDa 121 70 0 23 May 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 886 13,207 0 04 Mar 2022
A General Language Assistant as a Laboratory for Alignment Amanda Askell Yuntao Bai Anna Chen Dawn Drain Deep Ganguli ... Tom B. Brown Jack Clark Sam McCandlish C. Olah Jared Kaplan ALM 120 790 0 01 Dec 2021
Can Machines Learn Morality? The Delphi Experiment Liwei Jiang Jena D. Hwang Chandra Bhagavatula Ronan Le Bras Jenny T Liang ... Yulia Tsvetkov Oren Etzioni Maarten Sap Regina A. Rini Yejin Choi FaML 192 122 0 14 Oct 2021
Aspect-Controllable Opinion Summarization Reinald Kim Amplayo Stefanos Angelidis Mirella Lapata 53 74 0 07 Sep 2021
Self-Supervised Multimodal Opinion Summarization Jinbae Im Moonki Kim Hoyeop Lee Hyunsouk Cho Sehee Chung 43 36 0 27 May 2021
Unsupervised Opinion Summarization with Noising and Denoising Reinald Kim Amplayo Mirella Lapata 32 71 0 21 Apr 2020
Unsupervised Opinion Summarization as Copycat-Review Generation Arthur Brazinskas Mirella Lapata Ivan Titov 55 130 0 06 Nov 2019
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 485 1,768 0 18 Sep 2019
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 544 19,296 0 20 Jul 2017
A Neural Attention Model for Abstractive Sentence Summarization Alexander M. Rush S. Chopra Jason Weston CVBM 186 2,702 0 02 Sep 2015