SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning

SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning

18 March 2022

Jongjin Park

Younggyo Seo

Jinwoo Shin

Honglak Lee

Pieter Abbeel

Kimin Lee

Papers citing "SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning"

19 / 19 papers shown

Title
DAPPER: Discriminability-Aware Policy-to-Policy Preference-Based Reinforcement Learning for Query-Efficient Robot Skill Acquisition Yuki Kadokawa Jonas Frey Takahiro Miki Takamitsu Matsubara Marco Hutter 33 0 0 09 May 2025
TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations Shuaiyi Huang Mara Levy Anubhav Gupta Daniel Ekpo Ruijie Zheng Abhinav Shrivastava 28 0 0 09 May 2025
Comprehensive Overview of Reward Engineering and Shaping in Advancing Reinforcement Learning Applications Sinan Ibrahim Mostafa Mostafa Ali Jnadi Hadi Salloum Pavel Osinenko OffRL 52 12 0 31 Dec 2024
Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences Z. Liu Junjie Xu Xingjiao Wu J. Yang Liang He 26 0 0 11 Sep 2024
Preference-Guided Reinforcement Learning for Efficient Exploration Guojian Wang Faguo Wu Xiao Zhang Tianyuan Chen Xuyang Chen Lin Zhao 40 0 0 09 Jul 2024
Preference Elicitation for Offline Reinforcement Learning Alizée Pace Bernhard Schölkopf Gunnar Rätsch Giorgia Ramponi OffRL 69 1 0 26 Jun 2024
SAIL: Self-Improving Efficient Online Alignment of Large Language Models Mucong Ding Souradip Chakraborty Vibhu Agrawal Zora Che Alec Koppel Mengdi Wang Amrit Singh Bedi Furong Huang 47 10 0 21 Jun 2024
Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity Calarina Muslimani Bram Grooten Deepak Ranganatha Sastry Mamillapalli Mykola Pechenizkiy D. Mocanu M. E. Taylor 54 0 0 10 Jun 2024
Enhancing Q-Learning with Large Language Model Heuristics Xiefeng Wu LRM 32 0 0 06 May 2024
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning Calarina Muslimani M. E. Taylor OffRL 46 2 0 30 Apr 2024
Human-AI Collaboration in Real-World Complex Environment with Reinforcement Learning Md Saiful Islam Srijita Das S. Gottipati William Duguay Clodéric Mars Jalal Arabneydi Antoine Fagette Matthew J. Guzdial Matthew E. Taylor 38 1 0 23 Dec 2023
SemiReward: A General Reward Model for Semi-supervised Learning Siyuan Li Weiyang Jin Zedong Wang Fang Wu Zicheng Liu Cheng Tan Stan Z. Li 38 9 0 04 Oct 2023
Rating-based Reinforcement Learning Devin White Mingkang Wu Ellen R. Novoseller Vernon J. Lawhern Nicholas R. Waytowich Yongcan Cao ALM 19 6 0 30 Jul 2023
Preference Transformer: Modeling Human Preferences using Transformers for RL Changyeon Kim Jongjin Park Jinwoo Shin Honglak Lee Pieter Abbeel Kimin Lee OffRL 38 61 0 02 Mar 2023
Exploiting Unlabeled Data for Feedback Efficient Human Preference based Reinforcement Learning Mudit Verma Siddhant Bhambri Subbarao Kambhampati 37 4 0 17 Feb 2023
A State Augmentation based approach to Reinforcement Learning from Human Preferences Mudit Verma Subbarao Kambhampati 33 2 0 17 Feb 2023
Rewards Encoding Environment Dynamics Improves Preference-based Reinforcement Learning Katherine Metcalf Miguel Sarabia B. Theobald OffRL 38 4 0 12 Nov 2022
Symbol Guided Hindsight Priors for Reward Learning from Human Preferences Mudit Verma Katherine Metcalf 32 8 0 17 Oct 2022
Reinforcement Learning with Action-Free Pre-Training from Videos Younggyo Seo Kimin Lee Stephen James Pieter Abbeel SSL OnRL 18 117 0 25 Mar 2022