v1v2 (latest)

Fine-Tuning Language Models from Human Preferences

18 September 2019

Papers citing "Fine-Tuning Language Models from Human Preferences"

50 / 1,265 papers shown

Title
A Survey on Progress in LLM Alignment from the Perspective of Reward Design Miaomiao Ji Yanqiu Wu Zhibin Wu Shoujin Wang Jian Yang Mark Dras Usman Naseem 76 2 0 05 May 2025
What do Language Model Probabilities Represent? From Distribution Estimation to Response Prediction Eitan Wagner Omri Abend 141 1 0 04 May 2025
Semantic Probabilistic Control of Language Models Kareem Ahmed Catarina G Belém Padhraic Smyth Sameer Singh 115 1 0 04 May 2025
Inducing Robustness in a 2 Dimensional Direct Preference Optimization Paradigm Sarvesh Shashidhar Ritik Nachiketa Patil Suraj Racha Ganesh Ramakrishnan 67 0 0 03 May 2025
LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures Francisco Aguilera-Martínez Fernando Berzal PILM 123 0 0 02 May 2025
GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets Mingqian He Fei Zhao Chonggang Lu Ziqiang Liu Yun Wang Haofu Qian OffRL AI4TS VLM 116 2 0 28 Apr 2025
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets Adam Younsi Abdalgader Abubaker M. Seddik Hakim Hacid Salem Lahlou LRM 234 1 0 28 Apr 2025
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors Ren-Wei Liang Chin-Ting Hsu Chan-Hung Yu Saransh Agrawal Shih-Cheng Huang Shang-Tse Chen Kuan-Hao Huang Shao-Hua Sun 167 0 0 27 Apr 2025
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning Jiaqi Chen Bang Zhang Ruotian Ma Peisong Wang Xiaodan Liang Zhaopeng Tu Xuzhao Li Kwan-Yee K. Wong LLMAG ReLM LRM 158 5 0 27 Apr 2025
Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization Kesen Zhao B. Zhu Qianru Sun Hanwang Zhang MLLM LRM 158 1 0 25 Apr 2025
Mathematics of Continual Learning Liangzu Peng René Vidal CLL 114 0 0 24 Apr 2025
Target Concrete Score Matching: A Holistic Framework for Discrete Diffusion Ruixiang Zhang Shuangfei Zhai Yizhe Zhang James Thornton Zijing Ou Joshua M. Susskind Navdeep Jaitly DiffM 96 3 0 23 Apr 2025
LoRe: Personalizing LLMs via Low-Rank Reward Modeling Avinandan Bose Zhihan Xiong Yuejie Chi Simon S. Du Lin Xiao Maryam Fazel 84 2 0 20 Apr 2025
Direct Advantage Regression: Aligning LLMs with Online AI Reward Li He He Zhao Stephen Wan Dadong Wang Lina Yao Tongliang Liu 82 0 0 19 Apr 2025
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning Yixuan Even Xu Yash Savani Fei Fang Zico Kolter OffRL 113 12 0 18 Apr 2025
Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo João Loula Benjamin LeBrun Li Du Ben Lipkin Clemente Pasti ... Ryan Cotterel Vikash K. Mansinghka Alexander K. Lew Tim Vieira Timothy J. O'Donnell 161 8 0 17 Apr 2025
Energy-Based Reward Models for Robust Language Model Alignment Anamika Lochab Ruqi Zhang 427 0 0 17 Apr 2025
Evaluating the Diversity and Quality of LLM Generated Content Alexander Shypula Shuo Li Botong Zhang Vishakh Padmakumar Kayo Yin Osbert Bastani 98 5 0 16 Apr 2025
Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data Shuai Zhao Linchao Zhu Yi Yang 93 3 0 14 Apr 2025
FLoRA: Sample-Efficient Preference-based RL via Low-Rank Style Adaptation of Reward Functions Daniel Marta Simon Holk Miguel Vasco Jens Lundell Timon Homberger F. L. Busch Olov Andersson Danica Kragic Iolanda Leite 131 1 0 14 Apr 2025
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training Zhenting Wang Guofeng Cui Kun Wan Wentian Zhao Wentian Zhao 74 4 0 13 Apr 2025
SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding Yangliu Hu Zikai Song Na Feng Yawei Luo Junqing Yu Yi-Ping Phoebe Chen Wei Yang 71 2 0 10 Apr 2025
Bridging the Gap Between Preference Alignment and Machine Unlearning Xiaohua Feng Yuyuan Li Huwei Ji Jiaming Zhang Lulu Zhang Tianyu Du Chaochao Chen MU 93 0 0 09 Apr 2025
Information-Theoretic Reward Decomposition for Generalizable RLHF Liyuan Mao Haoran Xu Amy Zhang Weinan Zhang Chenjia Bai 115 0 0 08 Apr 2025
Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking Yu-Hang Wu Yu-Jie Xiong Jie-Zhang J. Zhang Zheng Zhou AAML 79 0 0 08 Apr 2025
Enhancing Compositional Reasoning in Vision-Language Models with Synthetic Preference Data Samarth Mishra Kate Saenko Venkatesh Saligrama CoGe LRM 69 0 0 07 Apr 2025
Truthful or Fabricated? Using Causal Attribution to Mitigate Reward Hacking in Explanations Pedro Ferreira Wilker Aziz Ivan Titov LRM 94 0 0 07 Apr 2025
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling Benjamin Lipkin Benjamin LeBrun Jacob Hoover Vigly João Loula David R. MacIver ... Ryan Cotterell Vikash K. Mansinghka Timothy J. O'Donnell Alexander K. Lew Tim Vieira 91 0 0 07 Apr 2025
Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval Kidist Amde Mekonnen Yubao Tang Maarten de Rijke 119 0 0 07 Apr 2025
Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning Xuerui Su Shufang Xie Guoqing Liu Yingce Xia Renqian Luo Peiran Jin Zhiming Ma Yue Wang Zun Wang Yuting Liu LRM 92 5 0 06 Apr 2025
MultiClear: Multimodal Soft Exoskeleton Glove for Transparent Object Grasping Assistance Chen Hu Timothy Neate Shan Luo Letizia Gionfrida 101 12 0 04 Apr 2025
AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset Bingxiang He Wenbin Zhang Jiaxi Song Cheng Qian Z. Fu ... Hui Xue Ganqu Cui Wanxiang Che Zhiyuan Liu Maosong Sun 104 0 0 04 Apr 2025
HALO: Human-Aligned End-to-end Image Retargeting with Layered Transformations Yiran Xu Siqi Xie Zhuofang Li Harris Shadmany Yinxiao Li ... Jesse Berent Ming-Hsuan Yang Irfan Essa Jia-Bin Huang Feng Yang VOS 154 1 0 03 Apr 2025
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning Kai Ye Hongyi Zhou Jin Zhu Francesco Quinzan C. Shi 95 4 0 03 Apr 2025
The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context Nikhil Verma Manasa Bharadwaj 78 2 0 03 Apr 2025
A Robust Model-Based Approach for Continuous-Time Policy Evaluation with Unknown Lévy Process Dynamics Qihao Ye Xiaochuan Tian Yuhua Zhu 97 1 0 02 Apr 2025
An Illusion of Progress? Assessing the Current State of Web Agents Tianci Xue Weijian Qi Tianneng Shi Chan Hee Song Boyu Gou Basel Alomair Huan Sun Yu Su LLMAG ELM Presented at ResearchTrend Connect \| LLMAG on 21 May 2025 264 13 1 02 Apr 2025
Increasing happiness through conversations with artificial intelligence Joseph Heffner Chongyu Qin Martin Chadwick Chris Knutsen Christopher Summerfield Zeb Kurth-Nelson Robb B. Rutledge AI4MH 86 0 0 02 Apr 2025
CONGRAD:Conflicting Gradient Filtering for Multilingual Preference Alignment Jiangnan Li Thuy-Trang Vu Christian Herold Amirhossein Tebbifakhr Shahram Khadivi Gholamreza Haffari 163 0 0 31 Mar 2025
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment Souradip Chakraborty Sujay Bhatt Udari Madhushani Sehwag Soumya Suvra Ghosal Jiahao Qiu Mengdi Wang Dinesh Manocha Furong Huang Alec Koppel Sumitra Ganesh 119 6 0 27 Mar 2025
Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap Tong Nie Jian Sun Wei Ma 228 4 0 27 Mar 2025
GAPO: Learning Preferential Prompt through Generative Adversarial Policy Optimization Zhouhong Gu Xingzhou Chen Xiaoran Shi Tao Wang Suhang Zheng Tianyu Li Hongwei Feng Yanghua Xiao 111 1 0 26 Mar 2025
Optimizing Language Models for Inference Time Objectives using Reinforcement Learning Yunhao Tang Kunhao Zheng Gabriel Synnaeve Rémi Munos 67 3 0 25 Mar 2025
One Framework to Rule Them All: Unifying RL-Based and RL-Free Methods in RLHF Xin Cai 97 1 0 25 Mar 2025
RL-finetuning LLMs from on- and off-policy data with a single algorithm Yunhao Tang Taco Cohen David W. Zhang Michal Valko Rémi Munos OffRL 92 4 0 25 Mar 2025
Latent Embedding Adaptation for Human Preference Alignment in Diffusion Planners Wen Zheng Terence Ng Jianda Chen Yuan Xu Tianwei Zhang 113 0 0 24 Mar 2025
Understanding the Effects of RLHF on the Quality and Detectability of LLM-Generated Texts Beining Xu Arkaitz Zubiaga DeLMO 119 0 0 23 Mar 2025
LLMs Love Python: A Study of LLMs' Bias for Programming Languages and Libraries Lukas Twist Jie M. Zhang Mark Harman Don Syme Joost Noppen Detlef Nauck 135 3 0 21 Mar 2025
Opportunities and Challenges of Frontier Data Governance With Synthetic Data Madhavendra Thakur Jason Hausenloy 91 0 0 21 Mar 2025
From Chaos to Order: The Atomic Reasoner Framework for Fine-grained Reasoning in Large Language Models Jinyi Liu Yan Zheng Rong Cheng Qiyu Wu Wei Guo ... Hebin Liang Yifu Yuan Hangyu Mao Fuzheng Zhang Jianye Hao LRM AI4CE 93 1 0 20 Mar 2025