PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training

9 June 2021

Pieter Abbeel

Papers citing "PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training"

50 / 67 papers shown

Title
TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations Shuaiyi Huang Mara Levy Anubhav Gupta Daniel Ekpo Ruijie Zheng Abhinav Shrivastava 28 0 0 09 May 2025
Policy-labeled Preference Learning: Is Preference Enough for RLHF? Taehyun Cho Seokhun Ju Seungyub Han Dohyeong Kim Kyungjae Lee Jungwoo Lee OffRL 29 0 0 06 May 2025
PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations Haowen Sun Haoran Wang Chengzhong Ma Shaolong Zhang Jiawei Ye Xingyu Chen Xuguang Lan OffRL 62 1 0 29 Apr 2025
Reward Generation via Large Vision-Language Model in Offline Reinforcement Learning Younghwan Lee Tung M. Luu Donghoon Lee Chang D. Yoo 3DV VLM OffRL 41 0 0 03 Apr 2025
PRISM: Preference Refinement via Implicit Scene Modeling for 3D Vision-Language Preference-Based Reinforcement Learning Yirong Sun Yanjun Chen OffRL 56 0 0 13 Mar 2025
Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm H. Kim Kanghoon Lee J. Park Jiachen Li Jinkyoo Park 62 1 0 05 Mar 2025
M3HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality Ziyan Wang Zhicheng Zhang Fei Fang Yali Du 44 1 0 03 Mar 2025
Reducing Reward Dependence in RL Through Adaptive Confidence Discounting Muhammed Yusuf Satici David L. Roberts OffRL 46 0 0 28 Feb 2025
Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models Zhanpeng He Yifeng Cao M. Ciocarlie 77 0 0 26 Feb 2025
A Critical Look At Tokenwise Reward-Guided Text Generation Ahmad Rashid Ruotian Wu Julia Grosse Agustinus Kristiadi Pascal Poupart OffRL 76 0 0 17 Feb 2025
ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy Yuhui Chen Shuai Tian Shugao Liu Yingting Zhou Haoran Li Dongbin Zhao OffRL 106 1 0 08 Feb 2025
Learning from Active Human Involvement through Proxy Value Propagation Zhenghao Peng Wenjie Mo Chenda Duan Quanyi Li Bolei Zhou 107 14 0 05 Feb 2025
DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning Utsav Singh Souradip Chakraborty Wesley A Suttle Brian M. Sadler Vinay P. Namboodiri Amrit Singh Bedi OffRL 53 0 0 03 Jan 2025
Contrastive Learning from Exploratory Actions: Leveraging Natural Interactions for Preference Elicitation N. Dennler Stefanos Nikolaidis Maja J. Matarić 192 0 0 03 Jan 2025
Comprehensive Overview of Reward Engineering and Shaping in Advancing Reinforcement Learning Applications Sinan Ibrahim Mostafa Mostafa Ali Jnadi Hadi Salloum Pavel Osinenko OffRL 52 14 0 31 Dec 2024
RL, but don't do anything I wouldn't do Michael K. Cohen Marcus Hutter Yoshua Bengio Stuart J. Russell OffRL 35 2 0 08 Oct 2024
Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences Z. Liu Junjie Xu Xingjiao Wu J. Yang Liang He 26 0 0 11 Sep 2024
Advances in Preference-based Reinforcement Learning: A Review Youssef Abdelkareem Shady Shehata Fakhri Karray OffRL 51 9 0 21 Aug 2024
Preference-Guided Reinforcement Learning for Efficient Exploration Guojian Wang Faguo Wu Xiao Zhang Tianyuan Chen Xuyang Chen Lin Zhao 40 0 0 09 Jul 2024
Safety through feedback in Constrained RL Shashank Reddy Chirra Pradeep Varakantham P. Paruchuri OffRL 51 1 0 28 Jun 2024
Preference Elicitation for Offline Reinforcement Learning Alizée Pace Bernhard Schölkopf Gunnar Rätsch Giorgia Ramponi OffRL 69 1 0 26 Jun 2024
Cascade Reward Sampling for Efficient Decoding-Time Alignment Bolian Li Yifan Wang A. Grama Ruqi Zhang Ruqi Zhang AI4TS 49 9 0 24 Jun 2024
SAIL: Self-Improving Efficient Online Alignment of Large Language Models Mucong Ding Souradip Chakraborty Vibhu Agrawal Zora Che Alec Koppel Mengdi Wang Amrit Singh Bedi Furong Huang 47 10 0 21 Jun 2024
Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity Calarina Muslimani Bram Grooten Deepak Ranganatha Sastry Mamillapalli Mykola Pechenizkiy Decebal Constantin Mocanu Matthew E. Taylor 54 0 0 10 Jun 2024
Aligning Agents like Large Language Models Adam Jelley Yuhan Cao Dave Bignell Sam Devlin Tabish Rashid LM&Ro 49 1 0 06 Jun 2024
Do's and Don'ts: Learning Desirable Skills with Instruction Videos Hyunseung Kim ByungKun Lee Hojoon Lee Dongyoon Hwang Donghu Kim Jaegul Choo 39 1 0 01 Jun 2024
Bilevel reinforcement learning via the development of hyper-gradient without lower-level convexity Yan Yang Bin Gao Ya-xiang Yuan 46 2 0 30 May 2024
Learning Reward for Robot Skills Using Large Language Models via Self-Alignment Yuwei Zeng Yao Mu Lin Shao 42 12 0 12 May 2024
Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation JoonHo Lee Jae Oh Woo Juree Seok Parisa Hassanzadeh Wooseok Jang ... Hankyu Moon Wenjun Hu Yeong-Dae Kwon Taehee Lee Seungjai Min 47 2 0 10 May 2024
Enhancing Q-Learning with Large Language Model Heuristics Xiefeng Wu LRM 32 0 0 06 May 2024
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning Calarina Muslimani Matthew E. Taylor OffRL 46 2 0 30 Apr 2024
Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback Vincent Conitzer Rachel Freedman J. Heitzig Wesley H. Holliday Bob M. Jacobs ... Eric Pacuit Stuart Russell Hailey Schoelkopf Emanuel Tewolde W. Zwicker 43 30 0 16 Apr 2024
Bayesian Constraint Inference from User Demonstrations Based on Margin-Respecting Preference Models Dimitris Papadimitriou Daniel S. Brown 48 1 0 04 Mar 2024
Crowd-PrefRL: Preference-Based Reward Learning from Crowds David Chhan Ellen R. Novoseller Vernon J. Lawhern 40 5 0 17 Jan 2024
A Minimaximalist Approach to Reinforcement Learning from Human Feedback Gokul Swamy Christoph Dann Rahul Kidambi Zhiwei Steven Wu Alekh Agarwal OffRL 41 96 0 08 Jan 2024
Human-AI Collaboration in Real-World Complex Environment with Reinforcement Learning Md Saiful Islam Srijita Das S. Gottipati William Duguay Clodéric Mars Jalal Arabneydi Antoine Fagette Matthew J. Guzdial Matthew E. Taylor 41 1 0 23 Dec 2023
Promptable Behaviors: Personalizing Multi-Objective Rewards from Human Preferences Minyoung Hwang Luca Weihs Chanwoo Park Kimin Lee Aniruddha Kembhavi Kiana Ehsani 35 18 0 14 Dec 2023
Agent-Aware Training for Agent-Agnostic Action Advising in Deep Reinforcement Learning Yaoquan Wei Shunyu Liu Mingli Song Tongya Zheng Kaixuan Chen Yong Wang Mingli Song 25 0 0 28 Nov 2023
A density estimation perspective on learning from pairwise human preferences Vincent Dumoulin Daniel D. Johnson Pablo Samuel Castro Hugo Larochelle Yann Dauphin 34 12 0 23 Nov 2023
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model Kai Yang Jian Tao Jiafei Lyu Chunjiang Ge Jiaxin Chen Qimai Li Weihan Shen Xiaolong Zhu Xiu Li EGVM 23 89 0 22 Nov 2023
Active teacher selection for reinforcement learning from human feedback Rachel Freedman Justin Svegliato K. H. Wray Stuart J. Russell 31 6 0 23 Oct 2023
Learning to Discern: Imitating Heterogeneous Human Demonstrations with Preference and Representation Learning Sachit Kuhar Shuo Cheng Shivang Chopra Matthew Bronars Danfei Xu 55 9 0 22 Oct 2023
Learning Reward for Physical Skills using Large Language Model Yuwei Zeng Yiqing Xu 36 6 0 21 Oct 2023
Natural and Robust Walking using Reinforcement Learning without Demonstrations in High-Dimensional Musculoskeletal Models Pierre Schumacher Thomas Geijtenbeek Vittorio Caggiano Vikash Kumar Syn Schmitt Georg Martius Daniel Haeufle OOD OffRL 42 9 0 06 Sep 2023
Rating-based Reinforcement Learning Devin White Mingkang Wu Ellen R. Novoseller Vernon J. Lawhern Nicholas R. Waytowich Yongcan Cao ALM 19 6 0 30 Jul 2023
Fairness in Preference-based Reinforcement Learning Umer Siddique Abhinav Sinha Yongcan Cao 19 4 0 16 Jun 2023
Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism Zihao Li Zhuoran Yang Mengdi Wang OffRL 37 55 0 29 May 2023
Learning Interpretable Models of Aircraft Handling Behaviour by Reinforcement Learning from Human Feedback Tom Bewley J. Lawry Arthur G. Richards 30 1 0 26 May 2023
LIMIT: Learning Interfaces to Maximize Information Transfer Benjamin A. Christie Dylan P. Losey 34 4 0 17 Apr 2023
Preference Transformer: Modeling Human Preferences using Transformers for RL Changyeon Kim Jongjin Park Jinwoo Shin Honglak Lee Pieter Abbeel Kimin Lee OffRL 41 62 0 02 Mar 2023