v1v2v3v4 (latest)

Online Bandit Learning with Offline Preference Data for Improved RLHF

13 June 2024

Papers citing "Online Bandit Learning with Offline Preference Data for Improved RLHF"

35 / 35 papers shown

Title
Analysis of Diffusion Models for Manifold Data Anand Jerry George Rodrigo Veiga Nicolas Macris DiffM 79 5 0 01 Feb 2025
Online Preference-based Reinforcement Learning with Self-augmented Feedback from Large Language Model Songjun Tu Jingbo Sun Qichao Zhang Xiangyuan Lan Dongbin Zhao 123 4 0 22 Dec 2024
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs Shenao Zhang Zhihan Liu Boyi Liu Yanzhe Zhang Yingxiang Yang Yunxing Liu Liyu Chen Tao Sun Ziyi Wang 125 3 0 10 Oct 2024
e-COP : Episodic Constrained Optimization of Policies Akhil Agnihotri Rahul Jain Deepak Ramachandran Sahil Singla OffRL 70 1 0 13 Jun 2024
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data Fahim Tajwar Anika Singh Archit Sharma Rafael Rafailov Jeff Schneider Tengyang Xie Stefano Ermon Chelsea Finn Aviral Kumar 85 127 0 22 Apr 2024
Feel-Good Thompson Sampling for Contextual Dueling Bandits Xuheng Li Heyang Zhao Quanquan Gu 73 13 0 09 Apr 2024
A General Theoretical Paradigm to Understand Learning from Human Preferences M. G. Azar Mark Rowland Bilal Piot Daniel Guo Daniele Calandriello Michal Valko Rémi Munos 174 624 0 18 Oct 2023
Optimal Best-Arm Identification in Bandits with Access to Offline Data Shubhada Agrawal Sandeep Juneja Karthikeyan Shanmugam A. Suggala 83 6 0 15 Jun 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 387 3,981 0 29 May 2023
PaLM 2 Technical Report Rohan Anil Andrew M. Dai Orhan Firat Melvin Johnson Dmitry Lepikhin ... Ce Zheng Wei Zhou Denny Zhou Slav Petrov Yonghui Wu ReLM LRM 191 1,192 0 17 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.4K 14,631 0 15 Mar 2023
Pretraining Language Models with Human Preferences Tomasz Korbak Kejian Shi Angelica Chen Rasika Bhalerao C. L. Buckley Jason Phang Sam Bowman Ethan Perez ALM SyDa 69 228 0 16 Feb 2023
Leveraging Demonstrations to Improve Online Learning: Quality Matters Botao Hao Rahul Jain Tor Lattimore Benjamin Van Roy Zheng Wen 82 11 0 07 Feb 2023
Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits Siddhartha Banerjee Sean R. Sinclair Milind Tambe Lily Xu Chao Yu AI4TS 141 7 0 30 Sep 2022
Ensembles for Uncertainty Estimation: Benefits of Prior Functions and Bootstrapping Vikranth Dwaracherla Zheng Wen Ian Osband Xiuyuan Lu S. Asghari Benjamin Van Roy UQCV 84 20 0 08 Jun 2022
An Analysis of Ensemble Sampling Chao Qin Zheng Wen Xiuyuan Lu Benjamin Van Roy 88 22 0 02 Mar 2022
Stochastic Contextual Dueling Bandits under Linear Stochastic Transitivity Models Viktor Bengs Aadirupa Saha Eyke Hüllermeier 37 23 0 09 Feb 2022
Imitation Learning by Estimating Expertise of Demonstrators M. Beliaev Andy Shih Stefano Ermon Dorsa Sadigh Ramtin Pedarsani 82 49 0 02 Feb 2022
Active Learning by Acquiring Contrastive Examples Katerina Margatina Giorgos Vernikos Loïc Barrault Nikolaos Aletras 78 191 0 08 Sep 2021
Investigating the Impact of Multi-LiDAR Placement on Object Detection for Autonomous Driving Hanjiang Hu Zuxin Liu Sharad Chitlangia Akhil Agnihotri Ding Zhao 60 36 0 02 May 2021
Cross-Task Generalization via Natural Language Crowdsourcing Instructions Swaroop Mishra Daniel Khashabi Chitta Baral Hannaneh Hajishirzi LRM 153 751 0 18 Apr 2021
A Survey of Deep Active Learning Pengzhen Ren Yun Xiao Xiaojun Chang Po-Yao (Bernie) Huang Zhihui Li Brij B. Gupta Xiaojiang Chen Xin Wang 101 1,146 0 30 Aug 2020
A Convolutional Neural Network Approach Towards Self-Driving Cars Akhil Agnihotri Prathamesh Saraf Kriti Rajesh Bapnad SSL 29 26 0 09 Sep 2019
Optimal Exploitation of Clustering and History Information in Multi-Armed Bandit Djallel Bouneffouf Srinivasan Parthasarathy Horst Samulowitz Martin Wistuba 48 30 0 31 May 2019
Warm-starting Contextual Bandits: Robustly Combining Supervised and Bandit Feedback Chicheng Zhang Alekh Agarwal Hal Daumé John Langford S. Negahban 46 32 0 02 Jan 2019
Preference-based Online Learning with Dueling Bandits: A Survey Viktor Bengs R. Busa-Fekete Adil El Mesaoudi-Paul Eyke Hüllermeier 102 113 0 30 Jul 2018
Ensemble Sampling Xiuyuan Lu Benjamin Van Roy 126 121 0 20 May 2017
Deep Exploration via Randomized Value Functions Ian Osband Benjamin Van Roy Daniel Russo Zheng Wen 89 307 0 22 Mar 2017
Double Thompson Sampling for Dueling Bandits Huasen Wu Xin Liu 96 87 0 25 Apr 2016
Simple Bayesian Algorithms for Best Arm Identification Daniel Russo 62 280 0 26 Feb 2016
Simple regret for infinitely many armed bandits Alexandra Carpentier Michal Valko 230 88 0 18 May 2015
Contextual Dueling Bandits Miroslav Dudík Katja Hofmann Robert Schapire Aleksandrs Slivkins M. Zoghi 110 124 0 23 Feb 2015
Thompson Sampling for Contextual Bandits with Linear Payoffs Shipra Agrawal Navin Goyal 195 1,004 0 15 Sep 2012
Bayesian Active Learning for Classification and Preference Learning N. Houlsby Ferenc Huszár Zoubin Ghahramani M. Lengyel 122 915 0 24 Dec 2011
A Contextual-Bandit Approach to Personalized News Article Recommendation Lihong Li Wei Chu John Langford Robert Schapire 471 2,951 0 28 Feb 2010