v1v2v3 (latest)

Learning to summarize from human feedback

2 September 2020

Papers citing "Learning to summarize from human feedback"

50 / 1,548 papers shown

Title
Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation Xun Wu Shaohan Huang Furu Wei 87 10 0 23 Apr 2024
Self-Supervised Alignment with Mutual Information: Learning to Follow Principles without Preference Labels Jan-Philipp Fränken E. Zelikman Rafael Rafailov Kanishk Gandhi Tobias Gerstenberg Noah D. Goodman 72 14 0 22 Apr 2024
Protecting Your LLMs with Information Bottleneck Zichuan Liu Zefan Wang Linjie Xu Jinyu Wang Lei Song Tianchun Wang Chunlin Chen Wei Cheng Jiang Bian KELM AAML 126 18 0 22 Apr 2024
Generating Attractive and Authentic Copywriting from Customer Reviews Yu-Xiang Lin Wei-Yun Ma 90 2 0 22 Apr 2024
Filtered Direct Preference Optimization Tetsuro Morimura Mitsuki Sakamoto Yuu Jinnai Kenshi Abe Kaito Air 124 15 0 22 Apr 2024
MM-PhyRLHF: Reinforcement Learning Framework for Multimodal Physics Question-Answering Avinash Anand Janak Kapuriya Chhavi Kirtani Apoorv Singh Jay Saraf Naman Lal Jatin Kumar A. Shivam Astha Verma R. Shah OffRL 98 9 0 19 Apr 2024
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment Zhaofeng Wu Ananth Balashankar Yoon Kim Jacob Eisenstein Ahmad Beirami 119 15 0 18 Apr 2024
FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom Yuanqin He Yan Kang Lixin Fan Qiang Yang 62 3 0 18 Apr 2024
Exploring the landscape of large language models: Foundations, techniques, and challenges M. Moradi Ke Yan David Colwell Matthias Samwald Rhona Asgari OffRL 67 2 0 18 Apr 2024
Stepwise Alignment for Constrained Language Model Policy Optimization Akifumi Wachi Thien Q. Tran Rei Sato Takumi Tanabe Yohei Akimoto 85 10 0 17 Apr 2024
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study Shusheng Xu Wei Fu Jiaxuan Gao Wenjie Ye Weiling Liu Zhiyu Mei Guangju Wang Chao Yu Yi Wu 171 165 0 16 Apr 2024
Enhancing Confidence Expression in Large Language Models Through Learning from Past Experience Haixia Han Tingyun Li Shisong Chen Jie Shi Chengyu Du Yanghua Xiao Jiaqing Liang Xin Lin 89 11 0 16 Apr 2024
Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback Vincent Conitzer Rachel Freedman J. Heitzig Wesley H. Holliday Bob M. Jacobs ... Eric Pacuit Stuart Russell Hailey Schoelkopf Emanuel Tewolde W. Zwicker 122 40 0 16 Apr 2024
Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs Ruoxi Cheng Haoxuan Ma Shuirong Cao Jiaqi Li Aihua Pei Zhiqiang Wang Pengliang Ji Haoyu Wang Jiaqi Huo AI4CE 108 9 0 15 Apr 2024
LLM Evaluators Recognize and Favor Their Own Generations Arjun Panickssery Samuel R. Bowman Shi Feng 124 197 0 15 Apr 2024
Impact of Preference Noise on the Alignment Performance of Generative Language Models Yang Gao Dana Alon Donald Metzler 102 21 0 15 Apr 2024
Learn Your Reference Model for Real Good Alignment Alexey Gorbatovski Boris Shaposhnikov Alexey Malakhov Nikita Surnachev Yaroslav Aksenov Ian Maksimov Nikita Balagansky Daniil Gavrilov OffRL 138 35 0 15 Apr 2024
RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs Shreyas Chaudhari Pranjal Aggarwal Vishvak Murahari Tanmay Rajpurohit Ashwin Kalyan Karthik Narasimhan Ameet Deshpande Bruno Castro da Silva 95 38 0 12 Apr 2024
Dataset Reset Policy Optimization for RLHF Jonathan D. Chang Wenhao Zhan Owen Oertell Kianté Brantley Dipendra Kumar Misra Jason D. Lee Wen Sun OffRL 119 24 0 12 Apr 2024
High-Dimension Human Value Representation in Large Language Models Samuel Cahyawijaya Delong Chen Yejin Bang Leila Khalatbari Bryan Wilie Ziwei Ji Etsuko Ishii Pascale Fung 221 6 0 11 Apr 2024
"We Need Structured Output": Towards User-centered Constraints on Large Language Model Output Michael Xieyang Liu Frederick Liu Alexander J. Fiannaca Terry Koo Lucas Dixon Michael Terry Carrie J. Cai 145 34 0 10 Apr 2024
Improving Language Model Reasoning with Self-motivated Learning Yunlong Feng Yang Xu Libo Qin Yasheng Wang Wanxiang Che LRM ReLM 84 7 0 10 Apr 2024
Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning Ruiqi Zhang Licong Lin Yu Bai Song Mei MU 143 193 0 08 Apr 2024
Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data Tim Baumgärtner Yang Gao Dana Alon Donald Metzler AAML 99 23 0 08 Apr 2024
Towards Understanding the Influence of Reward Margin on Preference Model Performance Bowen Qin Duanyu Feng Xi Yang 60 4 0 07 Apr 2024
Aligning Diffusion Models by Optimizing Human Utility Shufan Li Konstantinos Kallidromitis Akash Gokul Yusuke Kato Kazuki Kozuka 159 34 0 06 Apr 2024
Binary Classifier Optimization for Large Language Model Alignment Seungjae Jung Gunsoo Han D. W. Nam Kyoung-Woon On 82 25 0 06 Apr 2024
ROPO: Robust Preference Optimization for Large Language Models Xize Liang Chao Chen Shuang Qiu Jie Wang Yue-bo Wu Zhihang Fu Zhihao Shi Feng Wu Jieping Ye 93 3 0 05 Apr 2024
Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data Jingyu Zhang Marc Marone Tianjian Li Benjamin Van Durme Daniel Khashabi 200 9 0 05 Apr 2024
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences Corby Rosset Ching-An Cheng Arindam Mitra Michael Santacroce Ahmed Hassan Awadallah Tengyang Xie 209 132 0 04 Apr 2024
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought Jooyoung Lee Fan Yang Thanh Tran Qian Hu Emre Barut Kai-Wei Chang Chengwei Su ReLM LLMAG LRM 68 12 0 04 Apr 2024
HyperCLOVA X Technical Report Kang Min Yoo Jaegeun Han Sookyo In Heewon Jeon Jisu Jeong ... Hyunkyung Noh Se-Eun Choi Sang-Woo Lee Jung Hwa Lim Nako Sung VLM 88 9 0 02 Apr 2024
Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models Kyuyoung Kim Jongheon Jeong Minyong An Mohammad Ghavamzadeh Krishnamurthy Dvijotham Jinwoo Shin Kimin Lee EGVM 81 6 0 02 Apr 2024
Asymptotics of Language Model Alignment Joy Qiping Yang Salman Salamatian Ziteng Sun A. Suresh Ahmad Beirami 119 29 0 02 Apr 2024
Conjugate-Gradient-like Based Adaptive Moment Estimation Optimization Algorithm for Deep Learning Jiawu Tian Liwei Xu Xiaowei Zhang Yongqi Li ODL 118 0 0 02 Apr 2024
CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models Xuechen Liang Meiling Tao Yinghui Xia Yiting Xie Jun Wang JingSong Yang LLMAG 177 14 0 02 Apr 2024
Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment Yuu Jinnai Tetsuro Morimura Kaito Ariu Kenshi Abe 135 3 0 01 Apr 2024
Prior Constraints-based Reward Model Training for Aligning Large Language Models Hang Zhou Chenglong Wang Yimin Hu Tong Xiao Chunliang Zhang Jingbo Zhu ALM 89 2 0 01 Apr 2024
A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias Yuemei Xu Ling Hu Jiayi Zhao Zihan Qiu Yuqi Ye Hanwen Gu LRM 102 44 0 01 Apr 2024
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization Hritik Bansal Ashima Suvarna Gantavya Bhatt Nanyun Peng Kai-Wei Chang Aditya Grover ALM 157 11 0 31 Mar 2024
Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods Yuji Cao Huan Zhao Yuheng Cheng Ting Shu Guolong Liu Gaoqi Liang Junhua Zhao Yun Li LLMAG KELM OffRL LM&Ro 137 71 0 30 Mar 2024
A Survey of using Large Language Models for Generating Infrastructure as Code Kalahasti Ganesh Srivatsa Sabyasachi Mukhopadhyay Ganesh Katrapati Manish Shrivastava 50 3 0 30 Mar 2024
MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models Peng Ding Jiading Fang Peng Li Kangrui Wang Xiaochen Zhou Mo Yu Jing Li Matthew R. Walter Hongyuan Mei RALM ELM 97 6 0 29 Mar 2024
Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model Qi Gou Cam-Tu Nguyen 129 14 0 28 Mar 2024
Fine-Tuning Language Models with Reward Learning on Policy Hao Lang Fei Huang Yongbin Li ALM 67 7 0 28 Mar 2024
Disentangling Length from Quality in Direct Preference Optimization Ryan Park Rafael Rafailov Stefano Ermon Chelsea Finn ALM 105 145 0 28 Mar 2024
CYCLE: Learning to Self-Refine the Code Generation Yangruibo Ding Marcus J. Min Gail E. Kaiser Baishakhi Ray 133 37 0 27 Mar 2024
Understanding the Learning Dynamics of Alignment with Human Feedback Shawn Im Yixuan Li ALM 107 14 0 27 Mar 2024
Improving Attributed Text Generation of Large Language Models via Preference Learning Dongfang Li Zetian Sun Baotian Hu Zhenyu Liu Xinshuo Hu Xuebo Liu Min Zhang 90 15 0 27 Mar 2024
Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback Hongshen Xu Zichen Zhu Situo Zhang Da Ma Shuai Fan Lu Chen Kai Yu HILM 110 45 0 27 Mar 2024