Deep reinforcement learning from human preferences

12 June 2017

Papers citing "Deep reinforcement learning from human preferences"

50 / 216 papers shown

Title
IPO: Your Language Model is Secretly a Preference Classifier Shivank Garg Ayush Singh Shweta Singh Paras Chopra 409 1 0 22 Feb 2025
SimPER: A Minimalist Approach to Preference Alignment without Hyperparameters Teng Xiao Yige Yuan Ziyang Chen Mingxiao Li Shangsong Liang Zhaochun Ren V. Honavar 209 9 0 21 Feb 2025
BPO: Towards Balanced Preference Optimization between Knowledge Breadth and Depth in Alignment Sizhe Wang Yongqi Tong Hengyuan Zhang Dawei Li Xin Zhang Tianlong Chen 175 9 0 21 Feb 2025
Faster WIND: Accelerating Iterative Best-of- $N$ Distillation for LLM Alignment Tong Yang Jincheng Mei H. Dai Zixin Wen Shicong Cen Dale Schuurmans Yuejie Chi Bo Dai 107 4 0 20 Feb 2025
Savaal: Scalable Concept-Driven Question Generation to Enhance Human Learning Kimia Noorbakhsh Joseph Chandler Pantea Karimi M. Alizadeh H. Balakrishnan LRM 89 1 0 18 Feb 2025
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization Shuo Xing Yuping Wang Peiran Li Ruizheng Bai Yansen Wang Chan-wei Hu Chengxuan Qian Huaxiu Yao Zhengzhong Tu 176 7 0 18 Feb 2025
A Critical Look At Tokenwise Reward-Guided Text Generation Ahmad Rashid Ruotian Wu Julia Grosse Agustinus Kristiadi Pascal Poupart OffRL 124 0 0 17 Feb 2025
ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy Yuhui Chen Shuai Tian Shugao Liu Yingting Zhou Haoran Li Dongbin Zhao OffRL 168 8 0 08 Feb 2025
Design Considerations in Offline Preference-based RL Alekh Agarwal Christoph Dann T. V. Marinov OffRL 84 0 0 08 Feb 2025
Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance Shehzeen Samarah Hussain Paarth Neekhara Xuesong Yang Edresson Casanova Subhankar Ghosh Mikyas T. Desta Roy Fejgin Rafael Valle Jason Chun Lok Li 117 5 0 07 Feb 2025
Learning from Active Human Involvement through Proxy Value Propagation Zhenghao Peng Wenjie Mo Chenda Duan Quanyi Li Bolei Zhou 161 16 0 05 Feb 2025
CTR-Driven Advertising Image Generation with Multimodal Large Language Models Xingye Chen Wei Feng Zhenbang Du Weizhen Wang Yuxiao Chen ... Jingping Shao Yuanjie Shao Xinge You Changxin Gao Nong Sang OffRL 117 2 0 05 Feb 2025
Out-of-Distribution Detection using Synthetic Data Generation Momin Abbas Muneeza Azmat R. Horesh Mikhail Yurochkin 157 1 0 05 Feb 2025
Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning Hanyang Zhao Haoxian Chen Ji Zhang D. Yao Wenpin Tang 106 1 0 03 Feb 2025
Diverse Preference Optimization Jack Lanchantin Angelica Chen Shehzaad Dhuliawala Ping Yu Jason Weston Sainbayar Sukhbaatar Ilia Kulikov 193 4 0 30 Jan 2025
TimeHF: Billion-Scale Time Series Models Guided by Human Feedback Yongzhi Qi Hao Hu Dazhou Lei Jianshen Zhang Zhengxin Shi Yulin Huang Zhengyu Chen Xiaoming Lin Zuo-jun Shen AI4TS AI4CE 91 3 0 28 Jan 2025
Training Dialogue Systems by AI Feedback for Improving Overall Dialogue Impression Kai Yoshida M. Mizukami Seiya Kawano Canasai Kruengkrai Hiroaki Sugiyama Koichiro Yoshino ALM OffRL 111 1 0 28 Jan 2025
BoKDiff: Best-of-K Diffusion Alignment for Target-Specific 3D Molecule Generation Ali Khodabandeh Yalabadi Mehdi Yazdani-Jahromi O. Garibay 98 0 0 28 Jan 2025
Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning Nirav Diwan Tolga Ergen Dongsub Shim Honglak Lee 65 0 0 28 Jan 2025
Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning Hao Sun M. Schaar 125 18 0 28 Jan 2025
LiPO: Listwise Preference Optimization through Learning-to-Rank Tianqi Liu Zhen Qin Junru Wu Jiaming Shen Misha Khalman ... Mohammad Saleh Simon Baumgartner Jialu Liu Peter J. Liu Xuanhui Wang 291 55 0 28 Jan 2025
Complete Chess Games Enable LLM Become A Chess Master Yinqi Zhang Xintian Han Haolong Li Kedi Chen Shaohui Lin ReLM ELM 74 0 0 26 Jan 2025
HumorReject: Decoupling LLM Safety from Refusal Prefix via A Little Humor Zihui Wu Haichang Gao Jiacheng Luo Zhaoxiang Liu 116 0 0 23 Jan 2025
MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking Sebastian Farquhar Vikrant Varma David Lindner David Elson Caleb Biddulph Ian Goodfellow Rohin Shah 152 2 0 22 Jan 2025
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators Yinhong Liu Han Zhou Zhijiang Guo Ehsan Shareghi Ivan Vulić Anna Korhonen Nigel Collier ALM 169 79 0 20 Jan 2025
Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion Yannis Flet-Berliac Nathan Grinsztajn Florian Strub Bill Wu Eugene Choi ... Arash Ahmadian Yash Chandak M. G. Azar Olivier Pietquin Matthieu Geist OffRL 133 9 0 17 Jan 2025
Can ChatGPT Overcome Behavioral Biases in the Financial Sector? Classify-and-Rethink: Multi-Step Zero-Shot Reasoning in the Gold Investment Shuoling Liu Gaoguo Jia Yuhang Jiang Liyuan Chen Qiang Yang AIFin LRM 150 0 0 17 Jan 2025
Revisiting Rogers' Paradox in the Context of Human-AI Interaction Katherine M. Collins Umang Bhatt Ilia Sucholutsky 122 1 0 16 Jan 2025
Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment Chaoqi Wang Zhuokai Zhao Yibo Jiang Zhaorun Chen Chen Zhu ... Jiayi Liu Lizhu Zhang Xiangjun Fan Hao Ma Sinong Wang 124 5 0 16 Jan 2025
Tailored-LLaMA: Optimizing Few-Shot Learning in Pruned LLaMA Models with Task-Specific Prompts Danyal Aftab Steven Davy ALM 80 1 0 10 Jan 2025
Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models Roberto-Rafael Maura-Rivero Chirag Nagpal Roma Patel Francesco Visin 101 1 0 08 Jan 2025
SR-Reward: Taking The Path More Traveled Seyed Mahdi Basiri Azad Zahra Padar Gabriel Kalweit Joschka Boedecker OffRL 135 0 0 04 Jan 2025
DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning Utsav Singh Souradip Chakraborty Wesley A Suttle Brian M. Sadler Vinay P. Namboodiri Amrit Singh Bedi OffRL 108 0 0 03 Jan 2025
CREW: Facilitating Human-AI Teaming Research Lingyu Zhang Zhengran Ji Boyuan Chen 108 4 0 03 Jan 2025
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling Bradley Brown Jordan Juravsky Ryan Ehrlich Ronald Clark Quoc V. Le Christopher Ré Azalia Mirhoseini ALM LRM 226 302 0 03 Jan 2025
Geometric-Averaged Preference Optimization for Soft Preference Labels Hiroki Furuta Kuang-Huei Lee Shixiang Shane Gu Y. Matsuo Aleksandra Faust Heiga Zen Izzeddin Gur 103 11 0 31 Dec 2024
Comprehensive Overview of Reward Engineering and Shaping in Advancing Reinforcement Learning Applications Sinan Ibrahim Mostafa Mostafa Ali Jnadi Hadi Salloum Pavel Osinenko OffRL 99 16 0 31 Dec 2024
Understanding the Logic of Direct Preference Alignment through Logic Kyle Richardson Vivek Srikumar Ashish Sabharwal 171 2 0 23 Dec 2024
FedRLHF: A Convergence-Guaranteed Federated Framework for Privacy-Preserving and Personalized RLHF Flint Xiaofeng Fan Cheston Tan Yew-Soon Ong Roger Wattenhofer Wei Tsang Ooi 135 1 0 20 Dec 2024
Social Science Is Necessary for Operationalizing Socially Responsible Foundation Models Adam Davies Elisa Nguyen Michael Simeone Erik Johnston Martin Gubri 161 0 0 20 Dec 2024
REFA: Reference Free Alignment for multi-preference optimization Taneesh Gupta Rahul Madhavan Xuchao Zhang Chetan Bansal Saravan Rajmohan 130 1 0 20 Dec 2024
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage Xiaoning Dong Wenbo Hu Wei Xu Tianxing He 154 0 0 19 Dec 2024
RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation Kun Wu Chengkai Hou Jiaming Liu Zhengping Che Xiaozhu Ju ... Zhenyu Wang Pengju An Siyuan Qian Shanghang Zhang Jian Tang LM&Ro 192 21 0 18 Dec 2024
Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets Zhen Liu Tim Z. Xiao Weiyang Liu Yoshua Bengio Dinghuai Zhang 164 5 0 10 Dec 2024
Aligning Generalisation Between Humans and Machines Filip Ilievski Barbara Hammer F. V. Harmelen Benjamin Paassen S. Saralajew ... Vered Shwartz Gabriella Skitalinskaya Clemens Stachl Gido M. van de Ven T. Villmann 273 1 0 23 Nov 2024
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection Gabriel Chua Shing Yee Chan Shaun Khoo 158 1 0 20 Nov 2024
Efficient Alignment of Large Language Models via Data Sampling Amrit Khera Rajat Ghosh Debojyoti Dutta 125 1 0 15 Nov 2024
Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset Khaoula Chehbouni Jonathan Colaço-Carr Yash More Jackie CK Cheung G. Farnadi 150 1 0 12 Nov 2024
Sharp Analysis for KL-Regularized Contextual Bandits and RLHF Heyang Zhao Chenlu Ye Quanquan Gu Tong Zhang OffRL 213 6 0 07 Nov 2024
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback Guan-Ting Lin Prashanth Gurunath Shivakumar Aditya Gourav Yile Gu Ankur Gandhe Hung-yi Lee I. Bulyko 100 9 0 04 Nov 2024