Choices, Risks, and Reward Reports: Charting Public Policy for Reinforcement Learning Systems

11 February 2022

Papers citing "Choices, Risks, and Reward Reports: Charting Public Policy for Reinforcement Learning Systems"

5 / 5 papers shown

Title
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback Nathan Lambert Roberto Calandra ALM 145 36 0 31 Oct 2023
Designing Fiduciary Artificial Intelligence Sebastian Benthall David Shekman 73 5 0 27 Jul 2023
Dynamic Documentation for AI Systems S. Mehta Anderson Rogers T. Gilbert 17 1 0 20 Mar 2023
Actionable Guidance for High-Consequence AI Risk Management: Towards Standards Addressing AI Catastrophic Risks Anthony M. Barrett Dan Hendrycks Jessica Newman Brandie Nonnecke SILM 71 11 0 17 Jun 2022
Reward Reports for Reinforcement Learning T. Gilbert Nathan Lambert Sarah Dean Tom Zick Aaron J. Snoswell 107 36 0 22 Apr 2022