v1v2 (latest)

Fine-Tuning Language Models from Human Preferences

18 September 2019

Papers citing "Fine-Tuning Language Models from Human Preferences"

50 / 1,265 papers shown

Title
Intermediate direct preference optimization Atsushi Kojima 48 0 0 06 Aug 2024
Empathy Level Alignment via Reinforcement Learning for Empathetic Response Generation Hui Ma Bo Zhang Bo Xu Jian Wang Hongfei Lin Xiao Sun 135 1 0 06 Aug 2024
Mission Impossible: A Statistical Perspective on Jailbreaking LLMs Jingtong Su Mingyu Lee SangKeun Lee 93 12 0 02 Aug 2024
Towards Reliable Advertising Image Generation Using Human Feedback Thorben Werner Wei Feng Haohan Wang Yaoyu Li Jingsen Wang ... Maximilian Stubbemann Junsheng Jin Lars Schmidt-Thieme Zhangang Lin Jingping Shao 129 3 0 01 Aug 2024
ABC Align: Large Language Model Alignment for Safety & Accuracy Gareth Seneque Lap-Hang Ho Peter W. Glynn Yinyu Ye Jeffrey Molendijk 90 1 0 01 Aug 2024
Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge Tianhao Wu Weizhe Yuan O. Yu. Golovneva Jing Xu Yuandong Tian Jiantao Jiao Jason Weston Sainbayar Sukhbaatar ALM KELM LRM 142 96 0 28 Jul 2024
LLASP: Fine-tuning Large Language Models for Answer Set Programming Simone Mungari Francesco Calimeri Giuseppe Manco S. Perri Francesco Ricca 89 0 0 26 Jul 2024
Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift Seongho Son William Bankes Sayak Ray Chowdhury Brooks Paige Ilija Bogunovic 124 4 0 26 Jul 2024
Self-Directed Synthetic Dialogues and Revisions Technical Report Nathan Lambert Hailey Schoelkopf Aaron Gokaslan Luca Soldaini Valentina Pyatkin Louis Castricato SyDa 79 3 0 25 Jul 2024
LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models Shi Lin Rongchang Li Xun Wang Changting Lin Xun Wang Wenpeng Xing Meng Han Meng Han 91 3 0 23 Jul 2024
Knowledge Mechanisms in Large Language Models: A Survey and Perspective Meng Wang Yunzhi Yao Ziwen Xu Shuofei Qiao Shumin Deng ... Yong Jiang Pengjun Xie Fei Huang Huajun Chen Ningyu Zhang 139 39 0 22 Jul 2024
Large Language Model for Verilog Generation with Code-Structure-Guided Reinforcement Learning N. Wang Bingkun Yao Jie Zhou Xi Wang Zhe Jiang Nan Guan OffRL ALM 117 1 0 21 Jul 2024
Improving Context-Aware Preference Modeling for Language Models Silviu Pitis Ziang Xiao Nicolas Le Roux Alessandro Sordoni 95 12 0 20 Jul 2024
Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification Thomas Kwa Drake Thomas Adrià Garriga-Alonso 88 2 0 19 Jul 2024
Data-Centric Human Preference Optimization with Rationales H. Just Ming Jin Anit Kumar Sahu Huy Phan Ruoxi Jia 88 3 0 19 Jul 2024
Clinical Reading Comprehension with Encoder-Decoder Models Enhanced by Direct Preference Optimization Md Sultan al Nahian R. Kavuluru MedIm AI4CE 56 0 0 19 Jul 2024
Decomposed Direct Preference Optimization for Structure-Based Drug Design Xiwei Cheng Xiangxin Zhou Yuwei Yang Yu Bao Quanquan Gu 65 3 0 19 Jul 2024
Learning Goal-Conditioned Representations for Language Reward Models Vaskar Nath Dylan Slack Jeff Da Yuntao Ma Hugh Zhang Spencer Whitehead Sean Hendryx 56 0 0 18 Jul 2024
Model-based Policy Optimization using Symbolic World Model Andrey Gorodetskiy Konstantin Mironov Aleksandr I. Panov 78 0 0 18 Jul 2024
MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline D. Han Eunhwan Park Gisang Lee Adam Lee Nojun Kwak 120 4 0 17 Jul 2024
Analyzing the Generalization and Reliability of Steering Vectors Daniel Tan David Chanin Aengus Lynch Dimitrios Kanoulas Brooks Paige Adrià Garriga-Alonso Robert Kirk LLMSV 154 27 0 17 Jul 2024
The Better Angels of Machine Personality: How Personality Relates to LLM Safety Jie Zhang Dongrui Liu Chao Qian Ziyue Gan Yong Liu Yu Qiao Jing Shao LLMAG PILM 97 12 0 17 Jul 2024
Localizing and Mitigating Errors in Long-form Question Answering Rachneet Sachdeva Yixiao Song Mohit Iyyer Iryna Gurevych HILM 78 0 0 16 Jul 2024
Transforming Agency. On the mode of existence of Large Language Models Xabier E. Barandiaran Lola S. Almendros LLMAG LM&Ro 78 4 0 15 Jul 2024
AutoGRAMS: Autonomous Graphical Agent Modeling Software Ben Krause Lucia Chen Emmanuel Kahembwe 62 1 0 14 Jul 2024
New Desiderata for Direct Preference Optimization Xiangkun Hu Tong He David Wipf 93 3 0 12 Jul 2024
Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control Huayu Chen Kaiwen Zheng Hang Su Jun Zhu 147 5 0 12 Jul 2024
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training Youliang Yuan Wenxiang Jiao Wenxuan Wang Jen-tse Huang Jiahao Xu Tian Liang Pinjia He Zhaopeng Tu 115 32 0 12 Jul 2024
SoupLM: Model Integration in Large Language and Multi-Modal Models Yue Bai Zichen Zhang Jiasen Lu Yun Fu MoMe 59 1 0 11 Jul 2024
LIONs: An Empirically Optimized Approach to Align Language Models Xiao Yu Qingyang Wu Yu Li Zhou Yu ALM 95 6 0 09 Jul 2024
AI Safety in Generative AI Large Language Models: A Survey Jaymari Chua Yun Yvonna Li Shiyi Yang Chen Wang Lina Yao LM&MA 100 19 0 06 Jul 2024
MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? Zhaorun Chen Yichao Du Zichen Wen Yiyang Zhou Chenhang Cui ... Jiawei Zhou Zhuokai Zhao Rafael Rafailov Chelsea Finn Huaxiu Yao EGVM MLLM 117 35 0 05 Jul 2024
Q-Adapter: Customizing Pre-trained LLMs to New Preferences with Forgetting Mitigation Yi-Chen Li Fuxiang Zhang Wenjie Qiu Lei Yuan Chengxing Jia Zongzhang Zhang Yang Yu Bo An 61 3 0 04 Jul 2024
Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data Younghun Lee Sungchul Kim Ryan Rossi Tong Yu Xiang Chen LMTD 71 2 0 03 Jul 2024
Whispering Experts: Neural Interventions for Toxicity Mitigation in Language Models Xavier Suau Pieter Delobelle Katherine Metcalf Armand Joulin N. Apostoloff Luca Zappella P. Rodríguez MU AAML 99 14 0 02 Jul 2024
LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives Luísa Shimabucoro Sebastian Ruder Julia Kreutzer Marzieh Fadaee Sara Hooker SyDa 72 5 0 01 Jul 2024
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging Tzu-Han Lin Chen-An Li Hung-yi Lee Yun-Nung Chen VLM ALM 67 5 0 01 Jul 2024
Aligning Target-Aware Molecule Diffusion Models with Exact Energy Optimization Siyi Gu Minkai Xu Alexander Powers Weili Nie Tomas Geffner Karsten Kreis J. Leskovec Arash Vahdat Stefano Ermon 101 11 0 01 Jul 2024
Exploring Advanced Large Language Models with LLMsuite Giorgio Roffo LLMAG 36 0 0 01 Jul 2024
Residual-MPPI: Online Policy Customization for Continuous Control Pengcheng Wang Chenran Li Catherine Weaver Kenta Kawamoto Masayoshi Tomizuka Chen Tang Wei Zhan OffRL 153 3 0 01 Jul 2024
Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks Yue Zhou Henry Peng Zou Barbara Di Eugenio Yang Zhang LRM HILM 143 6 0 01 Jul 2024
Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning Zimu Lu Aojun Zhou Ke Wang Houxing Ren Weikang Shi Junting Pan Mingjie Zhan Hongsheng Li LRM 100 25 0 30 Jun 2024
LLM Critics Help Catch LLM Bugs Nat McAleese Rai Michael Pokorny Juan Felipe Cerón Uribe Evgenia Nitishinskaya Maja Trebacz Jan Leike ALM LRM 83 83 0 28 Jun 2024
Information-Theoretic Foundations for Neural Scaling Laws Hong Jun Jeon Benjamin Van Roy 76 1 0 28 Jun 2024
Suri: Multi-constraint Instruction Following for Long-form Text Generation Chau Minh Pham Simeng Sun Mohit Iyyer ALM LRM 124 23 0 27 Jun 2024
Diminishing Stereotype Bias in Image Generation Model using Reinforcemenlent Learning Feedback Xin Chen Virgile Foussereau EGVM 81 0 0 27 Jun 2024
Building Understandable Messaging for Policy and Evidence Review (BUMPER) with AI Katherine A. Rosenfeld Maike Sonnewald Sonia J. Jindal Kevin A. McCarthy Joshua L. Proctor 56 0 0 27 Jun 2024
Decoding-Time Language Model Alignment with Multiple Objectives Ruizhe Shi Yifang Chen Yushi Hu Alisa Liu Hannaneh Hajishirzi Noah A. Smith Simon Du 140 43 0 27 Jun 2024
JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models Haibo Jin Leyang Hu Xinuo Li Peiyan Zhang Chonghan Chen Jun Zhuang Haohan Wang PILM 99 32 0 26 Jun 2024
PAFT: A Parallel Training Paradigm for Effective LLM Fine-Tuning Shiva K. Pentyala Zhichao Wang Bin Bi Kiran Ramnath Xiang-Bo Mao Regunathan Radhakrishnan S. Asur Na Cheng MoMe 55 8 0 25 Jun 2024