Evaluation Faking: Unveiling Observer Effects in Safety Evaluation of Frontier AI Systems

Evaluation Faking: Unveiling Observer Effects in Safety Evaluation of Frontier AI Systems

23 May 2025

ArXiv (abs)PDF HTML

Papers citing "Evaluation Faking: Unveiling Observer Effects in Safety Evaluation of Frontier AI Systems"

14 / 14 papers shown

Title
Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation Bowen Baker Joost Huizinga Leo Gao Zehao Dou M. Guan Aleksander Mądry Wojciech Zaremba J. Pachocki David Farhi LRM 167 38 0 14 Mar 2025
Towards evaluations-based safety cases for AI scheming Mikita Balesni Marius Hobbhahn David Lindner Alexander Meinke Tomek Korbak ... Dan Braun Bilal Chughtai Owain Evans Daniel Kokotajlo Lucius Bushnaq ELM 77 12 0 29 Oct 2024
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types Yutao Mou Shikun Zhang Wei Ye ELM 77 16 0 29 Oct 2024
Sabotage Evaluations for Frontier Models Joe Benton Misha Wagner Eric Christiansen Cem Anil Ethan Perez ... Holden Karnofsky Evan Hubinger Roger C. Grosse Samuel R. Bowman David Duvenaud ELM 49 12 0 28 Oct 2024
Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders Zhengfu He Wentao Shu Xuyang Ge Lingjie Chen Junxuan Wang ... Qipeng Guo Xuanjing Huang Zuxuan Wu Yu-Gang Jiang Xipeng Qiu 104 30 0 27 Oct 2024
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2 Tom Lieberum Senthooran Rajamanoharan Arthur Conmy Lewis Smith Nicolas Sonnerat Vikrant Varma János Kramár Anca Dragan Rohin Shah Neel Nanda 99 128 0 09 Aug 2024
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Tinghao Xie Xiangyu Qi Yi Zeng Yangsibo Huang Udari Madhushani Sehwag ... Bo Li Kai Li Danqi Chen Peter Henderson Prateek Mittal ALM ELM 162 77 0 20 Jun 2024
AI Sandbagging: Language Models can Strategically Underperform on Evaluations Teun van der Weij Felix Hofstätter Ollie Jaffe Samuel F. Brown Francis Rhys Ward ELM 83 31 0 11 Jun 2024
Scaling and evaluating sparse autoencoders Leo Gao Tom Dupré la Tour Henk Tillman Gabriel Goh Rajan Troll Alec Radford Ilya Sutskever Jan Leike Jeffrey Wu 83 160 0 06 Jun 2024
Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant Olli Järviniemi Evan Hubinger 76 14 0 25 Apr 2024
A StrongREJECT for Empty Jailbreaks Alexandra Souly Qingyuan Lu Dillon Bowen Tu Trinh Elvis Hsieh ... Pieter Abbeel Justin Svegliato Scott Emmons Olivia Watkins Sam Toyer 92 97 0 15 Feb 2024
Managing extreme AI risks amid rapid progress Yoshua Bengio Geoffrey Hinton Andrew Yao Dawn Song Pieter Abbeel ... Philip Torr Stuart J. Russell Daniel Kahneman J. Brauner Sören Mindermann 89 67 0 26 Oct 2023
Towards Understanding Sycophancy in Language Models Mrinank Sharma Meg Tong Tomasz Korbak David Duvenaud Amanda Askell ... Oliver Rausch Nicholas Schiefer Da Yan Miranda Zhang Ethan Perez 349 244 0 20 Oct 2023
Bias and Fairness in Large Language Models: A Survey Isabel O. Gallegos Ryan Rossi Joe Barrow Md Mehrab Tanjim Sungchul Kim Franck Dernoncourt Tong Yu Ruiyi Zhang Nesreen Ahmed AILaw 112 594 0 02 Sep 2023