Reinforcement Learning from Diverse Human Preferences

v1v2v3 (latest)

Reinforcement Learning from Diverse Human Preferences

27 January 2023

ArXiv (abs)PDF HTML

Papers citing "Reinforcement Learning from Diverse Human Preferences"

9 / 9 papers shown

Title
Reward Generation via Large Vision-Language Model in Offline Reinforcement Learning Younghwan Lee Tung M. Luu Donghoon Lee Chang D. Yoo 3DV VLM OffRL 120 0 0 03 Apr 2025
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning Calarina Muslimani Matthew E. Taylor OffRL 103 2 0 30 Apr 2024
Few-Shot Preference Learning for Human-in-the-Loop RL Joey Hejna Dorsa Sadigh OffRL 100 99 0 06 Dec 2022
B-Pref: Benchmarking Preference-Based Reinforcement Learning Kimin Lee Laura M. Smith Anca Dragan Pieter Abbeel OffRL 96 97 0 04 Nov 2021
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Kimin Lee Laura M. Smith Pieter Abbeel OffRL 63 284 0 09 Jun 2021
dm_control: Software and Tasks for Continuous Control Yuval Tassa S. Tunyasuvunakool Alistair Muldal Yotam Doron Piotr Trochim ... Steven Bohez J. Merel Tom Erez Timothy Lillicrap N. Heess LM&Ro 91 413 0 22 Jun 2020
Scalable agent alignment via reward modeling: a research direction Jan Leike David M. Krueger Tom Everitt Miljan Martic Vishal Maini Shane Legg 95 413 0 19 Nov 2018
DeepMind Control Suite Yuval Tassa Yotam Doron Alistair Muldal Tom Erez Yazhe Li ... A. Abdolmaleki J. Merel Andrew Lefrancq Timothy Lillicrap Martin Riedmiller ELM LM&Ro BDL 133 1,136 0 02 Jan 2018
DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker Matej Moravcík Martin Schmid Neil Burch Viliam Lisý Dustin Morrill Nolan Bard Trevor Davis Kevin Waugh Michael Bradley Johanson Michael Bowling BDL 158 909 0 06 Jan 2017