Active Reward Learning from Multiple Teachers

Active Reward Learning from Multiple Teachers

2 March 2023

Rachel Freedman

Justin Svegliato

Stuart J. Russell

Papers citing "Active Reward Learning from Multiple Teachers"

12 / 12 papers shown

Title
A Comprehensive Survey of Reward Models: Taxonomy, Applications, Challenges, and Future Jialun Zhong Wei Shen Yanzeng Li Songyang Gao Hua Lu Yicheng Chen Yang Zhang Wei Zhou Jinjie Gu Lei Zou LRM 45 2 0 12 Apr 2025
DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents Taiyi Wang Zhihao Wu Jianheng Liu Jianye Hao Jun Wang Kun Shao OffRL 44 13 0 24 Feb 2025
Pareto-Optimal Learning from Preferences with Hidden Context Ryan Boldi Li Ding Lee Spector S. Niekum 70 6 0 21 Jun 2024
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning Calarina Muslimani Matthew E. Taylor OffRL 46 2 0 30 Apr 2024
RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs Shreyas Chaudhari Pranjal Aggarwal Vishvak Murahari Tanmay Rajpurohit Ashwin Kalyan Karthik Narasimhan Ameet Deshpande Bruno Castro da Silva 29 34 0 12 Apr 2024
Learning Human Preferences Over Robot Behavior as Soft Planning Constraints Austin Narcomey Nathan Tsoi Ruta Desai Marynel Vázquez 48 3 0 28 Mar 2024
WARM: On the Benefits of Weight Averaged Reward Models Alexandre Ramé Nino Vieillard Léonard Hussenot Robert Dadashi Geoffrey Cideron Olivier Bachem Johan Ferret 120 94 0 22 Jan 2024
Active teacher selection for reinforcement learning from human feedback Rachel Freedman Justin Svegliato K. H. Wray Stuart J. Russell 31 6 0 23 Oct 2023
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper Xander Davies Claudia Shi T. Gilbert Jérémy Scheurer ... Erdem Biyik Anca Dragan David M. Krueger Dorsa Sadigh Dylan Hadfield-Menell ALM OffRL 52 473 0 27 Jul 2023
Minimum Levels of Interpretability for Artificial Moral Agents Avish Vijayaraghavan C. Badea AI4CE 27 5 0 02 Jul 2023
Decision Making for Human-in-the-loop Robotic Agents via Uncertainty-Aware Reinforcement Learning Siddharth Singi Zhanpeng He Alvin Pan Sandip Patel Gunnar A. Sigurdsson Robinson Piramuthu Shuran Song M. Ciocarlie 14 9 0 12 Mar 2023
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 301 1,610 0 18 Sep 2019