v1v2v3 (latest)

Learning to summarize from human feedback

2 September 2020

Papers citing "Learning to summarize from human feedback"

50 / 1,548 papers shown

Title
Model Editing as a Robust and Denoised variant of DPO: A Case Study on Toxicity Rheeya Uppaal Apratim De Yiting He Yiquao Zhong Junjie Hu 168 7 0 22 May 2024
Can We Treat Noisy Labels as Accurate? Yuxiang Zheng Zhongyi Han Yilong Yin Xin Gao Tongliang Liu 71 1 0 21 May 2024
Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents San Kim Gary Geunbae Lee AAML 134 3 0 21 May 2024
SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling Xingzhou Lou Junge Zhang Jian Xie Lifeng Liu Dong Yan Kaiqi Huang 96 13 0 21 May 2024
Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming Jiaxu Liu Xiangyu Yin Sihao Wu Jianhong Wang Meng Fang Xinping Yi Xiaowei Huang 100 5 0 21 May 2024
A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback Kihyun Kim Jiawei Zhang Asuman Ozdaglar P. Parrilo OffRL 156 2 0 20 May 2024
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework Jian Hu Xibin Wu Wei Shen OpenLLMAI Team Dehao Zhang ... Weikai Fang Xianyu Yu Cao Haotian Xu Yiming Liu VLM AI4CE 139 130 0 20 May 2024
Hummer: Towards Limited Competitive Preference Dataset Li Jiang Yusen Wu Junwu Xiong Jingqing Ruan Yichuan Ding Qingpei Guo ZuJie Wen Jun Zhou Xiaotie Deng 91 7 0 19 May 2024
Learning from Imperfect Human Feedback: a Tale from Corruption-Robust Dueling Yuwei Cheng Fan Yao Xuefeng Liu Haifeng Xu 106 1 0 18 May 2024
Automated Multi-level Preference for MLLMs Mengxi Zhang Wenhao Wu Yu Lu Yuxin Song Kang Rong ... Jianbo Zhao Fanglong Liu Yifan Sun Haocheng Feng Jingdong Wang MLLM 129 15 0 18 May 2024
The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback Ruitao Chen Liwei Wang 148 1 0 18 May 2024
Tailoring Vaccine Messaging with Common-Ground Opinions Rickard Stureborg Sanxing Chen Ruoyu Xie Aayushi Patel Christopher Li Chloe Qinyu Zhu Tingnan Hu Jun Yang Bhuwan Dhingra 87 1 0 17 May 2024
Language Models can Evaluate Themselves via Probability Discrepancy Tingyu Xia Bowen Yu Yuan Wu Yi-Ju Chang Chang Zhou ELM 116 5 0 17 May 2024
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning Yuexiang Zhai Hao Bai Zipeng Lin Jiayi Pan Shengbang Tong ... Alane Suhr Saining Xie Yann LeCun Yi-An Ma Sergey Levine LLMAG LRM 143 81 0 16 May 2024
IntelliExplain: Enhancing Interactive Code Generation through Natural Language Explanations for Non-Professional Programmers Hao Yan Thomas D. Latoza Ziyu Yao LRM 86 0 0 16 May 2024
A Design Trajectory Map of Human-AI Collaborative Reinforcement Learning Systems: Survey and Taxonomy Zhaoxing Li 64 2 0 16 May 2024
NIFTY Financial News Headlines Dataset Raeid Saqur Ken Kato Nicholas Vinden Frank Rudzicz AIFin 81 1 0 16 May 2024
Spectral Editing of Activations for Large Language Model Alignment Yifu Qiu Zheng Zhao Yftah Ziser Anna Korhonen Edoardo Ponti Shay B. Cohen KELM LLMSV 110 22 0 15 May 2024
Enhancing Maritime Trajectory Forecasting via H3 Index and Causal Language Modelling (CLM) Nicolas Drapier Aladine Chetouani A. Chateigner 70 3 0 15 May 2024
IM-RAG: Multi-Round Retrieval-Augmented Generation Through Learning Inner Monologues Diji Yang Jinmeng Rao Kezhen Chen Xiaoyuan Guo Yawen Zhang Jie Yang Yi Zhang LRM RALM 115 20 0 15 May 2024
Understanding the performance gap between online and offline alignment algorithms Yunhao Tang Daniel Guo Zeyu Zheng Daniele Calandriello Yuan Cao ... Rémi Munos Bernardo Avila-Pires Michal Valko Yong Cheng Will Dabney OffRL OnRL 111 75 0 14 May 2024
RLHF Workflow: From Reward Modeling to Online RLHF Hanze Dong Wei Xiong Bo Pang Haoxiang Wang Han Zhao Yingbo Zhou Nan Jiang Doyen Sahoo Caiming Xiong Tong Zhang OffRL 94 132 0 13 May 2024
Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback Asaf B. Cassel Haipeng Luo Aviv A. Rosenberg Dmitry Sotnikov OffRL 83 4 0 13 May 2024
Integrating Emotional and Linguistic Models for Ethical Compliance in Large Language Models Edward Y. Chang 40 3 0 11 May 2024
Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation JoonHo Lee Jae Oh Woo Juree Seok Parisa Hassanzadeh Wooseok Jang ... Hankyu Moon Wenjun Hu Yeong-Dae Kwon Taehee Lee Seungjai Min 150 2 0 10 May 2024
Conversational Topic Recommendation in Counseling and Psychotherapy with Decision Transformer and Large Language Models Aylin Gunal Baihan Lin Djallel Bouneffouf OffRL AI4MH LM&MA 68 1 0 08 May 2024
MoDiPO: text-to-motion alignment via AI-feedback-driven Direct Preference Optimization Massimiliano Pappa Luca Collorone Giovanni Ficarra Indro Spinelli Yuta Kyuragi 71 2 0 06 May 2024
Select to Perfect: Imitating desired behavior from large multi-agent data Tim Franzmeyer Edith Elkind Philip Torr Jakob N. Foerster Joao Henriques 92 3 0 06 May 2024
MedAdapter: Efficient Test-Time Adaptation of Large Language Models towards Medical Reasoning Wenqi Shi Ran Xu Yuchen Zhuang Yue Yu Hang Wu Carl Yang M. D. Wang MedIm LM&MA 130 21 0 05 May 2024
Conformal Prediction for Natural Language Processing: A Survey Margarida M. Campos António Farinhas Chrysoula Zerva Mário A. T. Figueiredo André F. T. Martins AI4CE 270 18 0 03 May 2024
Reinforcement Learning-Guided Semi-Supervised Learning Marzi Heidari Hanping Zhang Yuhong Guo OffRL 97 1 0 02 May 2024
NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment Gerald Shen Zhilin Wang Olivier Delalleau Jiaqi Zeng Yi Dong ... Sahil Jain Ali Taghibakhshi Markel Sanz Ausin Ashwath Aithal Oleksii Kuchaiev 137 15 0 02 May 2024
WildChat: 1M ChatGPT Interaction Logs in the Wild Wenting Zhao Xiang Ren Jack Hessel Claire Cardie Yejin Choi Yuntian Deng 107 234 0 02 May 2024
The Real, the Better: Aligning Large Language Models with Online Human Behaviors Guanying Jiang Lingyong Yan Haibo Shi D. Yin 89 2 0 01 May 2024
Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models Xiaoshi Wu Yiming Hao Manyuan Zhang Keqiang Sun Zhaoyang Huang Guanglu Song Yu Liu Hongsheng Li EGVM 132 25 0 01 May 2024
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning Yuxi Xie Anirudh Goyal Wenyue Zheng Min-Yen Kan Timothy Lillicrap Kenji Kawaguchi Michael Shieh ReLM LRM 152 126 0 01 May 2024
MetaRM: Shifted Distributions Alignment via Meta-Learning Shihan Dou Yan Liu Enyu Zhou Changze Lv Haoxiang Jia ... Junjie Ye Rui Zheng Tao Gui Qi Zhang Xuanjing Huang OOD 160 2 0 01 May 2024
RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation Chanwoo Park Mingyang Liu Dingwen Kong Kaiqing Zhang Asuman Ozdaglar 155 41 0 30 Apr 2024
Iterative Reasoning Preference Optimization Richard Yuanzhe Pang Weizhe Yuan Kyunghyun Cho He He Sainbayar Sukhbaatar Jason Weston LRM 174 138 0 30 Apr 2024
Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning Mathieu Rita Florian Strub Rahma Chaabouni Paul Michel Emmanuel Dupoux Olivier Pietquin 97 10 0 30 Apr 2024
More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness Aaron Jiaxun Li Satyapriya Krishna Himabindu Lakkaraju 63 4 0 29 Apr 2024
Hallucination of Multimodal Large Language Models: A Survey Zechen Bai Pichao Wang Tianjun Xiao Tong He Zongbo Han Zheng Zhang Mike Zheng Shou VLM LRM 295 197 0 29 Apr 2024
MRScore: Evaluating Radiology Report Generation with LLM-based Reward System Yunyi Liu Zhanyu Wang Yingshu Li Xinyu Liang Lingqiao Liu Lei Wang Luping Zhou LM&MA 28 3 0 27 Apr 2024
Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo Stephen Zhao Rob Brekelmans Alireza Makhzani Roger C. Grosse 95 41 0 26 Apr 2024
REBEL: Reinforcement Learning via Regressing Relative Rewards Zhaolin Gao Jonathan D. Chang Wenhao Zhan Owen Oertell Gokul Swamy Kianté Brantley Thorsten Joachims J. Andrew Bagnell Jason D. Lee Wen Sun OffRL 87 41 0 25 Apr 2024
Hippocrates: An Open-Source Framework for Advancing Large Language Models in Healthcare Emre Can Acikgoz Osman Batur .Ince Rayene Bench Arda Anil Boz .Ilker Kesen Aykut Erdem Erkut Erdem LM&MA 79 10 0 25 Apr 2024
A Human-Computer Collaborative Tool for Training a Single Large Language Model Agent into a Network through Few Examples Lihang Pan Yuxuan Li Chun Yu Yuanchun Shi LLMAG 82 2 0 24 Apr 2024
The AI Companion in Education: Analyzing the Pedagogical Potential of ChatGPT in Computer Science and Engineering Z. He Thomas Nguyen Tahereh Miari Mehrdad Aliasgari S. Rafatirad Hossein Sayadi 40 3 0 23 Apr 2024
Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs Davide Caffagni Federico Cocchi Nicholas Moratelli Sara Sarto Marcella Cornia Lorenzo Baraldi Rita Cucchiara KELM 125 47 0 23 Apr 2024
Aligning LLM Agents by Learning Latent Preference from User Edits Ge Gao Alexey Taymanov Eduardo Salinas Paul Mineiro Dipendra Kumar Misra LLMAG 96 31 0 23 Apr 2024