Parenting: Safe Reinforcement Learning from Human Input

18 February 2019

Papers citing "Parenting: Safe Reinforcement Learning from Human Input"

12 / 12 papers shown

Title
Scalable agent alignment via reward modeling: a research direction Jan Leike David M. Krueger Tom Everitt Miljan Martic Vishal Maini Shane Legg 58 402 0 19 Nov 2018
Episodic Curiosity through Reachability Nikolay Savinov Anton Raichuk Raphaël Marinier Damien Vincent Marc Pollefeys Timothy Lillicrap Sylvain Gelly 30 267 0 04 Oct 2018
AI Safety Gridworlds Jan Leike Miljan Martic Victoria Krakovna Pedro A. Ortega Tom Everitt Andrew Lefrancq Laurent Orseau Shane Legg 92 250 0 27 Nov 2017
Inverse Reward Design Dylan Hadfield-Menell S. Milli Pieter Abbeel Stuart J. Russell Anca Dragan 55 393 0 08 Nov 2017
Explore, Exploit or Listen: Combining Human Feedback and Policy Model to Speed up Deep Reinforcement Learning in 3D Worlds Zhiyu Lin Brent Harrison A. Keech Mark O. Riedl 27 37 0 12 Sep 2017
Trial without Error: Towards Safe Reinforcement Learning via Human Intervention William Saunders Girish Sastry Andreas Stuhlmuller Owain Evans OffRL 44 230 0 17 Jul 2017
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 83 3,197 0 12 Jun 2017
Interactive Learning from Policy-Dependent Human Feedback J. MacGlashan Mark K. Ho R. Loftin Bei Peng Guan Wang David L. Roberts Matthew E. Taylor Michael L. Littman 41 296 0 21 Jan 2017
Concrete Problems in AI Safety Dario Amodei C. Olah Jacob Steinhardt Paul Christiano John Schulman Dandelion Mané 141 2,349 0 21 Jun 2016
Cooperative Inverse Reinforcement Learning Dylan Hadfield-Menell Anca Dragan Pieter Abbeel Stuart J. Russell 43 643 0 09 Jun 2016
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 450 149,474 0 22 Dec 2014
APRIL: Active Preference-learning based Reinforcement Learning R. Akrour Marc Schoenauer Michèle Sebag OffRL 39 128 0 05 Aug 2012