Batch Active Preference-Based Learning of Reward Functions

Batch Active Preference-Based Learning of Reward Functions

10 October 2018

Dorsa Sadigh

ArXiv (abs)PDF HTML

Papers citing "Batch Active Preference-Based Learning of Reward Functions"

19 / 19 papers shown

Title
ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment Xiaoqiang Lin Arun Verma Zhongxiang Dai Daniela Rus See-Kiong Ng Bryan Kian Hsiang Low 255 0 0 25 May 2025
Preference Elicitation for Offline Reinforcement Learning Alizée Pace Bernhard Schölkopf Gunnar Rätsch Giorgia Ramponi OffRL 102 1 0 26 Jun 2024
Pareto-Optimal Learning from Preferences with Hidden Context Ryan Boldi Li Ding Lee Spector S. Niekum 101 6 0 21 Jun 2024
Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation JoonHo Lee Jae Oh Woo Juree Seok Parisa Hassanzadeh Wooseok Jang ... Hankyu Moon Wenjun Hu Yeong-Dae Kwon Taehee Lee Seungjai Min 100 2 0 10 May 2024
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning Calarina Muslimani Matthew E. Taylor OffRL 103 2 0 30 Apr 2024
Natural Language Reinforcement Learning Xidong Feng Bo Liu Mengyue Yang Ziyan Wang Girish A. Koushiks Yali Du Ying Wen Jun Wang OffRL 87 5 0 11 Feb 2024
Learning Formal Specifications from Membership and Preference Queries Ameesh Shah Marcell Vazquez-Chanlatte Sebastian Junges Sanjit A. Seshia 61 5 0 19 Jul 2023
Active Reinforcement Learning: Observing Rewards at a Cost David M. Krueger Jan Leike Owain Evans J. Salvatier 54 32 0 13 Nov 2020
Learning Reward Functions from Diverse Sources of Human Feedback: Optimally Integrating Demonstrations and Preferences Erdem Biyik Dylan P. Losey Malayandi Palan Nicholas C. Landolfi Gleb Shevchuk Dorsa Sadigh 57 118 0 24 Jun 2020
Single Shot Active Learning using Pseudo Annotators Yazhou Yang Marco Loog VLM 95 29 0 17 May 2018
Active Learning for Convolutional Neural Networks: A Core-Set Approach Ozan Sener Silvio Savarese SSL 45 49 0 01 Aug 2017
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 190 3,318 0 12 Jun 2017
OpenAI Gym Greg Brockman Vicki Cheung Ludwig Pettersson Jonas Schneider John Schulman Jie Tang Wojciech Zaremba OffRL ODL 223 5,077 0 05 Jun 2016
Early Detection of Combustion Instabilities using Deep Convolutional Selective Autoencoders on Hi-speed Flame Video Chandrayee Basu Qian Yang M. Singhal Anca Dragan 88 174 0 25 Mar 2016
Learning Preferences for Manipulation Tasks from Online Coactive Feedback Ashesh Jain Shikhar Sharma Thorsten Joachims Ashutosh Saxena 84 117 0 05 Jan 2016
Dissimilarity-based Sparse Subset Selection Member Ieee Ehsan Elhamifar Fellow Ieee Guillermo Sapiro F. I. S. Shankar Sastry 85 125 0 25 Jul 2014
APRIL: Active Preference-learning based Reinforcement Learning R. Akrour Marc Schoenauer Michèle Sebag OffRL 79 128 0 05 Aug 2012
Determinantal point processes for machine learning Alex Kulesza B. Taskar 252 1,140 0 25 Jul 2012
Continuous Inverse Optimal Control with Locally Optimal Examples Sergey Levine V. Koltun OffRL 85 331 0 18 Jun 2012