v1v2v3 (latest)

Learning to summarize from human feedback

2 September 2020

Papers citing "Learning to summarize from human feedback"

50 / 1,548 papers shown

Title
LLM-Mediated Domain-Specific Voice Agents: The Case of TextileBot Shu Zhong Elia Gatti James Hardwick Miriam Ribul Youngjun Cho Marianna Obrist 76 4 0 15 Jun 2024
Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs Rui Yang Ruomeng Ding Yong Lin Huan Zhang Tong Zhang 122 62 0 14 Jun 2024
Deep Bayesian Active Learning for Preference Modeling in Large Language Models Luckeciano C. Melo P. Tigas Alessandro Abate Yarin Gal 122 11 0 14 Jun 2024
Bootstrapping Language Models with DPO Implicit Rewards Changyu Chen Zichen Liu Chao Du Tianyu Pang Qian Liu Arunesh Sinha Pradeep Varakantham Min Lin SyDa ALM 131 27 0 14 Jun 2024
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms Miaosen Zhang Yixuan Wei Zhen Xing Yifei Ma Zuxuan Wu ... Zheng Zhang Qi Dai Chong Luo Xin Geng Baining Guo VLM 98 1 0 13 Jun 2024
On Softmax Direct Preference Optimization for Recommendation Yuxin Chen Junfei Tan An Zhang Zhengyi Yang Leheng Sheng Enzhi Zhang Xiang Wang Tat-Seng Chua 121 35 0 13 Jun 2024
ContraSolver: Self-Alignment of Language Models by Resolving Internal Preference Contradictions Xu Zhang Xunjian Yin Xiaojun Wan 81 3 0 13 Jun 2024
HelpSteer2: Open-source dataset for training top-performing reward models Zhilin Wang Yi Dong Olivier Delalleau Jiaqi Zeng Gerald Shen Daniel Egert Jimmy J. Zhang Makesh Narsimhan Sreedhar Oleksii Kuchaiev AI4TS 127 109 0 12 Jun 2024
PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences Daiwei Chen Yi Chen Aniket Rege Ramya Korlakai Vinayak 114 23 0 12 Jun 2024
Discovering Preference Optimization Algorithms with and for Large Language Models Chris Xiaoxuan Lu Samuel Holt Claudio Fanconi Alex J. Chan Jakob Foerster M. Schaar R. T. Lange OffRL 114 18 0 12 Jun 2024
Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets Duanyu Feng Bowen Qin Chen Huang Youcheng Huang Zheng Zhang Wenqiang Lei 84 3 0 12 Jun 2024
It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF Taiming Lu Lingfeng Shen Xinyu Yang Weiting Tan Beidi Chen Huaxiu Yao 112 3 0 12 Jun 2024
Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling Jie Ruan Xiao Pu Mingqi Gao Xiaojun Wan Yuesheng Zhu 61 5 0 12 Jun 2024
Collective Constitutional AI: Aligning a Language Model with Public Input Saffron Huang Divya Siddarth Liane Lovitt Thomas I. Liao Esin Durmus Alex Tamkin Deep Ganguli ELM 140 83 0 12 Jun 2024
Prompt-Based Length Controlled Generation with Multiple Control Types Renlong Jie Xiaojun Meng Lifeng Shang Xin Jiang Qun Liu 91 8 0 12 Jun 2024
OPTune: Efficient Online Preference Tuning Lichang Chen Jiuhai Chen Chenxi Liu John Kirchenbauer Davit Soselia Chen Zhu Tom Goldstein Dinesh Manocha Heng Huang 70 5 0 11 Jun 2024
TextGrad: Automatic "Differentiation" via Text Mert Yuksekgonul Federico Bianchi Joseph Boen Sheng Liu Zhi Huang Carlos Guestrin James Zou LLMAG OOD AI4CE 113 48 0 11 Jun 2024
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis Qining Zhang Honghao Wei Lei Ying OffRL 149 2 0 11 Jun 2024
Multi-objective Reinforcement learning from AI Feedback Marcus Williams 97 1 0 11 Jun 2024
Fine-tuning with HED-IT: The impact of human post-editing for dialogical language models Daniela Occhipinti Michele Marchi Irene Mondella Huiyuan Lai F. Dell’Orletta Malvina Nissim Marco Guerini 120 1 0 11 Jun 2024
Teaching Language Models to Self-Improve by Learning from Language Feedback Chi Hu Yimin Hu Hang Cao Tong Xiao Jingbo Zhu LRM VLM 83 5 0 11 Jun 2024
Failures Are Fated, But Can Be Faded: Characterizing and Mitigating Unwanted Behaviors in Large-Scale Vision and Language Models Som Sagar Aditya Taparia Ransalu Senanayake 93 10 0 11 Jun 2024
3D-Properties: Identifying Challenges in DPO and Charting a Path Forward Yuzi Yan Yibo Miao J. Li Yipin Zhang Jian Xie Zhijie Deng Dong Yan 112 13 0 11 Jun 2024
Reinforced Compressive Neural Architecture Search for Versatile Adversarial Robustness Dingrong Wang Hitesh Sapkota Zhiqiang Tao Qi Yu AAML 70 1 0 10 Jun 2024
Towards Lifelong Learning of Large Language Models: A Survey Junhao Zheng Shengjie Qiu Chengming Shi Qianli Ma KELM CLL 86 28 0 10 Jun 2024
Aligning Large Language Models with Representation Editing: A Control Perspective Lingkai Kong Haorui Wang Wenhao Mu Yuanqi Du Yuchen Zhuang Yifei Zhou Yue Song Rongzhi Zhang Kai Wang Chao Zhang 107 26 0 10 Jun 2024
Information Theoretic Guarantees For Policy Alignment In Large Language Models Youssef Mroueh 97 8 0 09 Jun 2024
Distributional Preference Alignment of LLMs via Optimal Transport Igor Melnyk Youssef Mroueh Brian M. Belgodere Mattia Rigotti Apoorva Nitsure Mikhail Yurochkin Kristjan Greenewald Jirí Navrátil Jerret Ross 112 13 0 09 Jun 2024
Creativity Has Left the Chat: The Price of Debiasing Language Models Behnam Mohammadi 99 9 0 08 Jun 2024
Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing Biqing Qi Pengfei Li Fangyuan Li Junqi Gao Kaiyan Zhang Bowen Zhou 91 18 0 08 Jun 2024
Planning Like Human: A Dual-process Framework for Dialogue Planning Tao He Lizi Liao Yixin Cao Yuanxing Liu Ming Liu Zerui Chen Bing Qin 117 20 0 08 Jun 2024
Optimizing Autonomous Driving for Safety: A Human-Centric Approach with LLM-Enhanced RLHF Yuan Sun Navid Salami Pargoo Peter J. Jin Jorge Ortiz 80 21 0 06 Jun 2024
Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models Xiang Ji Sanjeev Kulkarni Mengdi Wang Tengyang Xie OffRL 114 5 0 06 Jun 2024
Aligning Agents like Large Language Models Adam Jelley Yuhan Cao Dave Bignell Sam Devlin Tabish Rashid LM&Ro 117 1 0 06 Jun 2024
Prototypical Reward Network for Data-Efficient RLHF Jinghan Zhang Xiting Wang Yiqiao Jin Changyu Chen Xinhao Zhang Kunpeng Liu ALM 94 22 0 06 Jun 2024
Wings: Learning Multimodal LLMs without Text-only Forgetting Yi-Kai Zhang Shiyin Lu Yang Li Yanqing Ma Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang De-Chuan Zhan Han-Jia Ye VLM 131 10 0 05 Jun 2024
LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback Timon Ziegenbein Gabriella Skitalinskaya Alireza Bayat Makou Henning Wachsmuth LLMAG KELM 108 8 0 05 Jun 2024
HYDRA: Model Factorization Framework for Black-Box LLM Personalization Yuchen Zhuang Haotian Sun Yue Yu Rushi Qiang Qifan Wang Chao Zhang Bo Dai AAML 129 26 0 05 Jun 2024
PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs Rongzhi Zhang Jiaming Shen Tianqi Liu Haorui Wang Zhen Qin Feng Han Jialu Liu Simon Baumgartner Michael Bendersky Chao Zhang 91 8 0 05 Jun 2024
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback Ilgee Hong Zichong Li Alexander Bukharin Yixiao Li Haoming Jiang Tianbao Yang Tuo Zhao 87 6 0 04 Jun 2024
Test-Time Regret Minimization in Meta Reinforcement Learning Mirco Mutti Aviv Tamar 82 4 0 04 Jun 2024
Dishonesty in Helpful and Harmless Alignment Youcheng Huang Jingkun Tang Duanyu Feng Zheng Zhang Wenqiang Lei Jiancheng Lv Anthony G. Cohn LLMSV 100 4 0 04 Jun 2024
The Life Cycle of Large Language Models: A Review of Biases in Education Jinsook Lee Yann Hicke Renzhe Yu Christopher A. Brooks René F. Kizilcec AI4Ed 106 2 0 03 Jun 2024
Favi-Score: A Measure for Favoritism in Automated Preference Ratings for Generative AI Evaluation Pius von Daniken Jan Deriu Don Tuggener Mark Cieliebak 76 2 0 03 Jun 2024
Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors Mengge Xue Zhenyu Hu Liqun Liu Kuo Liao Shuang Li Honglin Han Meng Zhao Chengguo Yin 85 8 0 03 Jun 2024
Self-Improving Robust Preference Optimization Eugene Choi Arash Ahmadian Matthieu Geist Oilvier Pietquin M. G. Azar 122 9 0 03 Jun 2024
Towards the Transferability of Rewards Recovered via Regularized Inverse Reinforcement Learning Andreas Schlaginhaufen Maryam Kamgarpour OffRL 70 3 0 03 Jun 2024
BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling Lin Gui Cristina Garbacea Victor Veitch BDL LM&MA 119 49 0 02 Jun 2024
Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback Chen Chen Yuchen Hu Wen Wu Helin Wang Chng Eng Siong Chao Zhang 93 12 0 02 Jun 2024
LLMs Could Autonomously Learn Without External Supervision Ke Ji Junying Chen Anningzhe Gao Wenya Xie Xiang Wan Benyou Wang 98 4 0 02 Jun 2024