v1v2 (latest)

Fine-Tuning Language Models from Human Preferences

18 September 2019

Papers citing "Fine-Tuning Language Models from Human Preferences"

50 / 1,265 papers shown

Title
Negative-Prompt-driven Alignment for Generative Language Model Shiqi Qiao Ning Xv Biao Liu Xin Geng ALM SyDa 71 0 0 16 Oct 2024
JudgeBench: A Benchmark for Evaluating LLM-based Judges Sijun Tan Siyuan Zhuang Kyle Montgomery William Y. Tang Alejandro Cuadron Chenguang Wang Raluca A. Popa Ion Stoica ELM ALM 153 52 0 16 Oct 2024
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning Jared Joselowitz Arjun Jagota Satyapriya Krishna Sonali Parbhoo Nyal Patel Satyapriya Krishna Sonali Parbhoo 48 0 0 16 Oct 2024
CREAM: Consistency Regularized Self-Rewarding Language Models Zhaoxiang Wang Weilei He Zhiyuan Liang Xuchao Zhang Chetan Bansal Ying Wei Weitong Zhang Huaxiu Yao ALM 187 12 0 16 Oct 2024
Understanding Likelihood Over-optimisation in Direct Alignment Algorithms Zhengyan Shi Sander Land Acyr Locatelli Matthieu Geist Max Bartolo 113 8 0 15 Oct 2024
Multi-round jailbreak attack on large language models Yihua Zhou Xiaochuan Shi AAML 59 0 0 15 Oct 2024
AdvBDGen: Adversarially Fortified Prompt-Specific Fuzzy Backdoor Generator Against LLM Alignment Pankayaraj Pathmanathan Udari Madhushani Sehwag Michael-Andrei Panaitescu-Liess Furong Huang SILM AAML 114 0 0 15 Oct 2024
Varying Shades of Wrong: Aligning LLMs with Wrong Answers Only Jihan Yao Wenxuan Ding Shangbin Feng Lucy Lu Wang Yulia Tsvetkov 73 2 0 14 Oct 2024
Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning Bokai Hu Sai Ashish Somayajula Xin Pan Zihan Huang OffRL 31 1 0 14 Oct 2024
LoRE: Logit-Ranked Retriever Ensemble for Enhancing Open-Domain Question Answering Saikrishna Sanniboina Shiv Trivedi Sreenidhi Vijayaraghavan RALM 28 1 0 13 Oct 2024
Safety-Aware Fine-Tuning of Large Language Models Hyeong Kyu Choi Xuefeng Du Yixuan Li 94 19 0 13 Oct 2024
FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback Yongbin Li Miao Zheng Fan Yang Bin Cui Tengjiao Wang Xin Wu Guosheng Dong Wentao Zhang ALM 121 8 0 12 Oct 2024
Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both Abhijnan Nath Changsoo Jung Ethan Seefried Nikhil Krishnaswamy 489 4 0 11 Oct 2024
SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction L. Yang Zhaochen Yu Tianze Zhang Minkai Xu Joseph E. Gonzalez Tengjiao Wang Shuicheng Yan ELM ReLM LRM 89 0 0 11 Oct 2024
Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization Noam Razin Sadhika Malladi Adithya Bhaskar Danqi Chen Sanjeev Arora Boris Hanin 216 35 0 11 Oct 2024
RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation Songming Liu Lingxuan Wu Bangguo Li Hengkai Tan Huayu Chen Zhengyi Wang Ke Xu Hang Su Jun Zhu 140 126 0 10 Oct 2024
From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions Changle Qu Sunhao Dai Xiaochi Wei Hengyi Cai Shuaiqiang Wang Dawei Yin Jun Xu Ji-Rong Wen 152 13 0 10 Oct 2024
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment Yuancheng Xu Udari Madhushani Sehwag Alec Koppel Sicheng Zhu Bang An Furong Huang Sumitra Ganesh 141 14 0 10 Oct 2024
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning Chongyu Fan Jiancheng Liu Licong Lin Jinghan Jia Ruiqi Zhang Song Mei Sijia Liu MU 190 36 0 09 Oct 2024
Accelerated Preference Optimization for Large Language Model Alignment Jiafan He Huizhuo Yuan Q. Gu 51 3 0 08 Oct 2024
RL, but don't do anything I wouldn't do Michael K. Cohen Marcus Hutter Yoshua Bengio Stuart J. Russell OffRL 72 2 0 08 Oct 2024
O1 Replication Journey: A Strategic Progress Report -- Part 1 Yiwei Qin Xuefeng Li Haoyang Zou Yixiu Liu Shijie Xia ... Yixin Ye Weizhe Yuan Hector Liu Yuezun Li Pengfei Liu VLM 103 92 0 08 Oct 2024
Demonstration Based Explainable AI for Learning from Demonstration Methods Morris Gu Elizabeth Croft Dana Kulic 36 0 0 08 Oct 2024
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification Tao Meng Ninareh Mehrabi Palash Goyal Anil Ramakrishna Aram Galstyan Richard Zemel Kai-Wei Chang Rahul Gupta Charith Peris 27 1 0 07 Oct 2024
DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback Guojun Xiong Ujwal Dinesha Debajoy Mukherjee Jian Li Srinivas Shakkottai 75 2 0 07 Oct 2024
SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks Fenia Christopoulou Ronald Cardenas Gerasimos Lampouras Haitham Bou-Ammar Jun Wang 79 2 0 07 Oct 2024
SoK: Towards Security and Safety of Edge AI Tatjana Wingarz Anne Lauscher Janick Edinger Dominik Kaaser Stefan Schulte Mathias Fischer 82 0 0 07 Oct 2024
Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates Chaithanya Bandi Abir Harrasse LLMAG ELM 29 7 0 07 Oct 2024
TLDR: Token-Level Detective Reward Model for Large Vision Language Models Deqing Fu Tong Xiao Rui Wang Wang Zhu Pengchuan Zhang Guan Pang Robin Jia Lawrence Chen 160 7 0 07 Oct 2024
MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans? Guanzhen Li Yuxi Xie Min-Yen Kan VLM 392 2 0 06 Oct 2024
Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF Zhaolin Gao Wenhao Zhan Jonathan D. Chang Gokul Swamy Kianté Brantley Jason D. Lee Wen Sun OffRL 142 7 0 06 Oct 2024
Reward Learning From Preference With Ties Jinsong Liu Dongdong Ge Ruihao Zhu 65 3 0 05 Oct 2024
RainbowPO: A Unified Framework for Combining Improvements in Preference Optimization Hanyang Zhao Genta Indra Winata Anirban Das Shi-Xiong Zhang D. Yao Wenpin Tang Sambit Sahu 109 9 0 05 Oct 2024
System 2 Reasoning Capabilities Are Nigh Scott C. Lowe VLM LRM 98 0 0 04 Oct 2024
Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback Kyuyoung Kim Ah Jeong Seo Hao Liu Jinwoo Shin Kimin Lee 48 5 0 04 Oct 2024
Grounded Answers for Multi-agent Decision-making Problem through Generative World Model Zeyang Liu Xinrui Yang Shiguang Sun Long Qian Lipeng Wan Xingyu Chen Xuguang Lan 112 3 0 03 Oct 2024
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions Yekun Chai Haoran Sun Huang Fang Shuohuan Wang Yu Sun Hua Wu 481 4 0 03 Oct 2024
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment Yifan Zhang Ge Zhang Yue Wu Kangping Xu Quanquan Gu 105 3 0 03 Oct 2024
RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning Jonas Gehring Kunhao Zheng Jade Copet Vegard Mella Taco Cohen Gabriel Synnaeve LLMAG 58 36 0 02 Oct 2024
Generative Reward Models Dakota Mahan Duy Phung Rafael Rafailov Chase Blagden Nathan Lile Louis Castricato Jan-Philipp Fränken Chelsea Finn Alon Albalak VLM SyDa OffRL 82 42 0 02 Oct 2024
Investigating on RLHF methodology Alexey Kutalev Sergei Markoff 43 0 0 02 Oct 2024
LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits Duy Nguyen Archiki Prasad Elias Stengel-Eskin Joey Tianyi Zhou 51 3 0 02 Oct 2024
FlipAttack: Jailbreak LLMs via Flipping Yue Liu Xiaoxin He Miao Xiong Jinlan Fu Shumin Deng Bryan Hooi AAML 98 17 0 02 Oct 2024
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging Yuling Shi Songsong Wang Chengcheng Wan Xiaodong Gu ELM 103 9 0 02 Oct 2024
Reasoning Elicitation in Language Models via Counterfactual Feedback Alihan Hüyük Xinnuo Xu Jacqueline R. M. A. Maasch Aditya V. Nori Javier González ReLM LRM 449 3 0 02 Oct 2024
Moral Alignment for LLM Agents Elizaveta Tennant Stephen Hailes Mirco Musolesi 130 8 0 02 Oct 2024
VinePPO: Refining Credit Assignment in RL Training of LLMs Amirhossein Kazemnejad Milad Aghajohari Eva Portelance Alessandro Sordoni Siva Reddy Rameswar Panda Nicolas Le Roux OffRL LRM 103 36 0 02 Oct 2024
FedPT: Federated Proxy-Tuning of Large Language Models on Resource-Constrained Edge Devices Zhidong Gao Yu Zhang Zhenxiao Zhang Yanmin Gong Yuanxiong Guo 66 1 0 01 Oct 2024
A Taxonomy of Loss Functions for Stochastic Optimal Control Carles Domingo-Enrich 75 4 0 01 Oct 2024
The Perfect Blend: Redefining RLHF with Mixture of Judges Tengyu Xu Eryk Helenowski Karthik Abinav Sankararaman Di Jin Kaiyan Peng ... Gabriel Cohen Yuandong Tian Hao Ma Sinong Wang Han Fang 139 14 0 30 Sep 2024