RRHF: Rank Responses to Align Language Models with Human Feedback without tears

11 April 2023

Zheng Yuan

Hongyi Yuan

Chuanqi Tan

Papers citing "RRHF: Rank Responses to Align Language Models with Human Feedback without tears"

50 / 282 papers shown

Title
OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models Junda Wu Xintong Li Ruoyu Wang Yu Xia Yuxin Xiong ... Xiang Chen B. Kveton Lina Yao Jingbo Shang Julian McAuley OffRL LRM 29 1 0 31 Oct 2024
Multi-Programming Language Sandbox for LLMs Shihan Dou Jiazheng Zhang Jianxiang Zang Yunbo Tao Wenmeng Zhou ... Yixin Cao Tao Gui Xipeng Qiu Qi Zhang Xuanjing Huang 60 1 0 30 Oct 2024
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types Yutao Mou Shikun Zhang Wei Ye ELM 40 9 0 29 Oct 2024
$f$ -PO: Generalizing Preference Optimization with $f$ -divergence Minimization Jiaqi Han Mingjian Jiang Yuxuan Song J. Leskovec Stefano Ermon 59 4 0 29 Oct 2024
Fast Best-of-N Decoding via Speculative Rejection Hanshi Sun Momin Haider Ruiqi Zhang Huitao Yang Jiahao Qiu Ming Yin Mengdi Wang Peter L. Bartlett Andrea Zanette BDL 45 30 0 26 Oct 2024
LOGO -- Long cOntext aliGnment via efficient preference Optimization Zecheng Tang Zechen Sun Juntao Li Qiaoming Zhu Min Zhang 37 1 0 24 Oct 2024
Optimizing Preference Alignment with Differentiable NDCG Ranking Jiacong Zhou Xianyun Wang Jun Yu 35 2 0 17 Oct 2024
Negative-Prompt-driven Alignment for Generative Language Model Shiqi Qiao Ning Xv Biao Liu Xin Geng ALM SyDa 38 0 0 16 Oct 2024
CREAM: Consistency Regularized Self-Rewarding Language Models Zhaoxiang Wang Weilei He Zhiyuan Liang Xuchao Zhang Chetan Bansal Ying Wei Weitong Zhang Huaxiu Yao ALM 104 7 0 16 Oct 2024
Preference Optimization with Multi-Sample Comparisons Chaoqi Wang Zhuokai Zhao Chen Zhu Karthik Abinav Sankararaman Michal Valko ... Zhaorun Chen Madian Khabsa Yuxin Chen Hao Ma Sinong Wang 74 10 0 16 Oct 2024
MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation Aniket Deroy Subhankar Maity Sudeshna Sarkar LLMAG LRM 41 3 0 16 Oct 2024
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning Jared Joselowitz Arjun Jagota Satyapriya Krishna Sonali Parbhoo Nyal Patel Satyapriya Krishna Sonali Parbhoo 32 0 0 16 Oct 2024
Taming Overconfidence in LLMs: Reward Calibration in RLHF Jixuan Leng Chengsong Huang Banghua Zhu Jiaxin Huang 39 9 0 13 Oct 2024
Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both Abhijnan Nath Changsoo Jung Ethan Seefried Nikhil Krishnaswamy 221 1 0 11 Oct 2024
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs Shenao Zhang Zhihan Liu Boyi Liu Wenjie Qu Yingxiang Yang Yunxing Liu Liyu Chen Tao Sun Ziyi Wang 101 3 0 10 Oct 2024
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning Chongyu Fan Jiancheng Liu Licong Lin Jinghan Jia Ruiqi Zhang Song Mei Sijia Liu MU 52 20 0 09 Oct 2024
Superficial Safety Alignment Hypothesis Jianwei Li Jung-Eun Kim 29 1 0 07 Oct 2024
MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans? Guanzhen Li Yuxi Xie Min-Yen Kan VLM 204 0 0 06 Oct 2024
Exploring LLM-based Data Annotation Strategies for Medical Dialogue Preference Alignment Chengfeng Dou Y. Zhang Zhi Jin Wenpin Jiao Haiyan Zhao Yongqiang Zhao Zhengwei Tao 35 0 0 05 Oct 2024
Learning Code Preference via Synthetic Evolution Jiawei Liu Thanh Nguyen Mingyue Shang Hantian Ding Xiaopeng Li Yu Yu Varun Kumar Zijian Wang SyDa ALM AAML 28 5 0 04 Oct 2024
Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models Angela Lopez-Cardona Carlos Segura Alexandros Karatzoglou Sergi Abadal Ioannis Arapakis ALM 62 3 0 02 Oct 2024
FlipGuard: Defending Preference Alignment against Update Regression with Constrained Optimization Mingye Zhu Yi Liu Quan Wang Junbo Guo Zhendong Mao 39 1 0 01 Oct 2024
The Perfect Blend: Redefining RLHF with Mixture of Judges Tengyu Xu Eryk Helenowski Karthik Abinav Sankararaman Di Jin Kaiyan Peng ... Gabriel Cohen Yuandong Tian Hao Ma Sinong Wang Han Fang 41 10 0 30 Sep 2024
HybridFlow: A Flexible and Efficient RLHF Framework Guangming Sheng Chi Zhang Zilingfeng Ye Xibin Wu Wang Zhang Ru Zhang Size Zheng Haibin Lin Chuan Wu AI4CE 39 95 0 28 Sep 2024
Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization Ruijie Xu Zhihan Liu Yongfei Liu Shipeng Yan Zhaoran Wang Zhi-Li Zhang Xuming He ALM 40 1 0 26 Sep 2024
Orthogonal Finetuning for Direct Preference Optimization Chenxu Yang Ruipeng Jia Naibin Gu Zheng Lin Siyuan Chen Chao Pang Weichong Yin Yu Sun Hua Wu Weiping Wang 37 0 0 23 Sep 2024
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration Jiahui Gao Renjie Pi Tianyang Han Han Wu Lanqing Hong Lingpeng Kong Xin Jiang Zhenguo Li 41 5 0 17 Sep 2024
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization Jianing Wang Yang Zhou Xiaocheng Zhang Mengjiao Bao Peng Yan 30 1 0 17 Sep 2024
Alignment of Diffusion Models: Fundamentals, Challenges, and Future Buhua Liu Shitong Shao Bao Li Lichen Bai Zhiqiang Xu Haoyi Xiong James Kwok Sumi Helal Zeke Xie 49 12 0 11 Sep 2024
Policy Filtration in RLHF to Fine-Tune LLM for Code Generation Wei Shen Chuheng Zhang OffRL 41 6 0 11 Sep 2024
Towards a Unified View of Preference Learning for Large Language Models: A Survey Bofei Gao Feifan Song Yibo Miao Zefan Cai Zheng Yang ... Houfeng Wang Zhifang Sui Peiyi Wang Baobao Chang Baobao Chang 58 12 0 04 Sep 2024
Making Large Language Models Better Planners with Reasoning-Decision Alignment Zhijian Huang Tao Tang Shaoxiang Chen Sihao Lin Zequn Jie Lin Ma Guangrun Wang Xiaodan Liang 56 10 0 25 Aug 2024
Selective Preference Optimization via Token-Level Reward Function Estimation Kailai Yang Zhiwei Liu Qianqian Xie Jimin Huang Erxue Min Sophia Ananiadou 38 10 0 24 Aug 2024
Beyond Labels: Aligning Large Language Models with Human-like Reasoning Muhammad Rafsan Kabir Rafeed Mohammad Sultan Ihsanul Haque Asif Jawad Ibn Ahad Fuad Rahman Mohammad Ruhul Amin Nabeel Mohammed Shafin Rahman LRM 61 2 0 20 Aug 2024
Minor DPO reject penalty to increase training robustness Shiming Xie Hong Chen Fred Yu Zeye Sun Xiuyu Wu Yingfan Hu 43 2 0 19 Aug 2024
Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning Tiansheng Huang Gautam Bhattacharya Pratik Joshi Josh Kimball Ling Liu AAML MoMe 52 20 0 18 Aug 2024
On the Generalization of Preference Learning with DPO Shawn Im Yixuan Li 52 1 0 06 Aug 2024
Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge Tianhao Wu Weizhe Yuan O. Yu. Golovneva Jing Xu Yuandong Tian Jiantao Jiao Jason Weston Sainbayar Sukhbaatar ALM KELM LRM 64 74 0 28 Jul 2024
Towards Aligning Language Models with Textual Feedback Sauc Abadal Lloret S. Dhuliawala K. Murugesan Mrinmaya Sachan VLM 53 1 0 24 Jul 2024
Course-Correction: Safety Alignment Using Synthetic Preferences Rongwu Xu Yishuo Cai Zhenhong Zhou Renjie Gu Haiqin Weng Yan Liu Tianwei Zhang Wei Xu Han Qiu 42 4 0 23 Jul 2024
Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation Jiaming Shen Ran Xu Yennie Jun Zhen Qin Tianqi Liu Carl Yang Yi Liang Simon Baumgartner Michael Bendersky SyDa 67 4 0 22 Jul 2024
Data-Centric Human Preference Optimization with Rationales H. Just Ming Jin Anit Kumar Sahu Huy Phan Ruoxi Jia 57 3 0 19 Jul 2024
HAF-RM: A Hybrid Alignment Framework for Reward Model Training Shujun Liu Xiaoyu Shen Yuhang Lai Siyuan Wang Shengbin Yue Zengfeng Huang Xuanjing Huang Zhongyu Wei 31 1 0 04 Jul 2024
MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization Yuyan Chen Zhihao Wen Ge Fan Zhengyu Chen Wei Wu Dayiheng Liu Zhixu Li Bang Liu Yanghua Xiao 41 18 0 04 Jul 2024
Aligning Human Motion Generation with Human Perceptions Haoru Wang Wentao Zhu Luyi Miao Yishu Xu Feng Gao Qi Tian Yizhou Wang EGVM 73 1 0 02 Jul 2024
Searching for Best Practices in Retrieval-Augmented Generation Xiaohua Wang Zhenghua Wang Xuan Gao Feiran Zhang Yixin Wu ... Qi Qian Ruicheng Yin Changze Lv Xiaoqing Zheng Xuanjing Huang 60 41 0 01 Jul 2024
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning Yuheng Zhang Dian Yu Baolin Peng Linfeng Song Ye Tian Mingyue Huo Nan Jiang Haitao Mi Dong Yu 37 15 0 30 Jun 2024
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation Peiyang Wu Nan Guo Xiao Xiao Wenming Li Mingyu Yan Xiaochun Ye 50 0 0 28 Jun 2024
Averaging log-likelihoods in direct alignment Nathan Grinsztajn Yannis Flet-Berliac M. G. Azar Florian Strub Bill Wu ... Chris Cremer Arash Ahmadian Yash Chandak Olivier Pietquin Matthieu Geist MoMe 49 5 0 27 Jun 2024
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation Guanting Dong Yutao Zhu Chenghao Zhang Zechen Wang Zhicheng Dou Ji-Rong Wen RALM 51 10 0 26 Jun 2024