Title
SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents Jonathan Kutasov Yuqi Sun Paul Colognese Teun van der Weij Linda Petrini ... Xiang Deng Henry Sleight Tyler Tracy Buck Shlegeris Joe Benton LLMAG 28 0 0 17 Jun 2025
Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors Chen Yueh-Han Nitish Joshi Yulin Chen Maksym Andriushchenko Rico Angell He He AAML 104 0 0 12 Jun 2025
A sketch of an AI control safety case Tomek Korbak Joshua Clymer Benjamin Hilton Buck Shlegeris Geoffrey Irving 147 10 0 28 Jan 2025