Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning

Reward Uncertainty for Exploration in Preference-based Reinforcement Learning

24 May 2022

Xinran Liang

Katherine Shu

Kimin Lee

Pieter Abbeel

Papers citing "Reward Uncertainty for Exploration in Preference-based Reinforcement Learning"

15 / 15 papers shown

Title
Comprehensive Overview of Reward Engineering and Shaping in Advancing Reinforcement Learning Applications Sinan Ibrahim Mostafa Mostafa Ali Jnadi Hadi Salloum Pavel Osinenko OffRL 84 15 0 31 Dec 2024
Safety through feedback in Constrained RL Shashank Reddy Chirra Pradeep Varakantham P. Paruchuri OffRL 62 1 0 28 Jun 2024
Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation JoonHo Lee Jae Oh Woo Juree Seok Parisa Hassanzadeh Wooseok Jang ... Hankyu Moon Wenjun Hu Yeong-Dae Kwon Taehee Lee Seungjai Min 91 2 0 10 May 2024
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning Calarina Muslimani Matthew E. Taylor OffRL 97 2 0 30 Apr 2024
Proportional Aggregation of Preferences for Sequential Decision Making Nikhil Chandak Shashwat Goel Dominik Peters 81 12 0 26 Jun 2023
B-Pref: Benchmarking Preference-Based Reinforcement Learning Kimin Lee Laura M. Smith Anca Dragan Pieter Abbeel OffRL 75 97 0 04 Nov 2021
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Kimin Lee Laura M. Smith Pieter Abbeel OffRL 58 284 0 09 Jun 2021
Behavior From the Void: Unsupervised Active Pre-Training Hao Liu Pieter Abbeel VLM SSL 75 200 0 08 Mar 2021
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning Kimin Lee Michael Laskin A. Srinivas Pieter Abbeel OffRL 48 203 0 09 Jul 2020
Active Preference-Based Gaussian Process Regression for Reward Learning Erdem Biyik Nicolas Huynh Mykel J. Kochenderfer Dorsa Sadigh GP 59 108 0 06 May 2020
CURL: Contrastive Unsupervised Representations for Reinforcement Learning A. Srinivas Michael Laskin Pieter Abbeel SSL DRL OffRL 81 1,084 0 08 Apr 2020
Self-Supervised Exploration via Disagreement Deepak Pathak Dhiraj Gandhi Abhinav Gupta SSL 73 381 0 10 Jun 2019
Scalable agent alignment via reward modeling: a research direction Jan Leike David M. Krueger Tom Everitt Miljan Martic Vishal Maini Shane Legg 86 413 0 19 Nov 2018
Curiosity-driven Exploration by Self-supervised Prediction Deepak Pathak Pulkit Agrawal Alexei A. Efros Trevor Darrell LRM SSL 106 2,433 0 15 May 2017
Asynchronous Methods for Deep Reinforcement Learning Volodymyr Mnih Adria Puigdomenech Badia M. Berk Mirza Alex Graves Timothy Lillicrap Tim Harley David Silver Koray Kavukcuoglu 191 8,833 0 04 Feb 2016