Unsolved Problems in ML Safety

28 September 2021

Papers citing "Unsolved Problems in ML Safety"

5 / 55 papers shown

Title
Measuring and Improving Consistency in Pretrained Language Models Yanai Elazar Nora Kassner Shauli Ravfogel Abhilasha Ravichander Eduard H. Hovy Hinrich Schütze Yoav Goldberg HILM 263 346 0 01 Feb 2021
RobustBench: a standardized adversarial robustness benchmark Francesco Croce Maksym Andriushchenko Vikash Sehwag Edoardo Debenedetti Nicolas Flammarion M. Chiang Prateek Mittal Matthias Hein VLM 222 676 0 19 Oct 2020
Scaling Out-of-Distribution Detection for Real-World Settings Dan Hendrycks Steven Basart Mantas Mazeika Andy Zou Joe Kwon Mohammadreza Mostajabi Jacob Steinhardt D. Song OODD 15 455 0 25 Nov 2019
AI safety via debate G. Irving Paul Christiano Dario Amodei 204 199 0 02 May 2018
Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles Balaji Lakshminarayanan Alexander Pritzel Charles Blundell UQCV BDL 270 5,660 0 05 Dec 2016