Title
The Structural Safety Generalization Problem Julius Broomfield Tom Gibbs Ethan Kosak-Hine George Ingebretsen Tia Nasir Jason Zhang Reihaneh Iranmanesh Sara Pieri Reihaneh Rabbany Kellin Pelrine AAML 40 0 0 13 Apr 2025
Scaling Trends in Language Model Robustness Nikolhaus Howe Michal Zajac I. R. McKenzie Oskar Hollinsworth Tom Tseng Aaron David Tucker Pierre-Luc Bacon Adam Gleave 117 3 0 21 Feb 2025
UNIDOOR: A Universal Framework for Action-Level Backdoor Attacks in Deep Reinforcement Learning Oubo Ma L. Du Yang Dai Chunyi Zhou Qingming Li Yuwen Pu Shouling Ji 48 0 0 28 Jan 2025
Interpreting the Learned Model in MuZero Planning Hung Guei Yan-Ru Ju Wei-Yu Chen Ti-Rong Wu 33 1 0 07 Nov 2024
ResTNet: Defense against Adversarial Policies via Transformer in Computer Go Tai-Lin Wu Ti-Rong Wu Chung-Chin Shih Yan-Ru Ju I-Chen Wu AAML 36 0 0 07 Oct 2024
Games of Knightian Uncertainty as AGI testbeds Spyridon Samothrakis Dennis J. N. J. Soemers Damian Machlanski 33 1 0 26 Jun 2024
Open-Endedness is Essential for Artificial Superhuman Intelligence Edward Hughes Michael Dennis Jack Parker-Holder Feryal M. P. Behbahani Aditi Mavalankar Yuge Shi Tom Schaul Tim Rocktaschel LRM 45 22 0 06 Jun 2024
SUB-PLAY: Adversarial Policies against Partially Observed Multi-Agent Reinforcement Learning Systems Oubo Ma Yuwen Pu L. Du Yang Dai Ruo Wang Xiaolei Liu Yingcai Wu Shouling Ji AAML 38 3 0 06 Feb 2024
Black-Box Access is Insufficient for Rigorous AI Audits Stephen Casper Carson Ezell Charlotte Siegmann Noam Kolt Taylor Lynn Curtis ... Michael Gerovitch David Bau Max Tegmark David M. Krueger Dylan Hadfield-Menell AAML 41 78 0 25 Jan 2024
Multi-Agent Diagnostics for Robustness via Illuminated Diversity Mikayel Samvelyan Davide Paglieri Minqi Jiang Jack Parker-Holder Tim Rocktaschel AAML 35 4 0 24 Jan 2024
Minimax Exploiter: A Data Efficient Approach for Competitive Self-Play Daniel Bairamian Philippe Marcotte Joshua Romoff Gabriel Robert Derek Nowrouzezahrai 18 0 0 28 Nov 2023
Managing extreme AI risks amid rapid progress Yoshua Bengio Geoffrey Hinton Andrew Yao Dawn Song Pieter Abbeel ... Philip Torr Stuart J. Russell Daniel Kahneman J. Brauner Sören Mindermann 32 63 0 26 Oct 2023
On existence, uniqueness and scalability of adversarial robustness measures for AI classifiers I. Horenko AAML 16 2 0 19 Oct 2023
Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning Zun Li Marc Lanctot Kevin R. McKee Luke Marris I. Gemp Daniel Hennes Paul Muller Kate Larson Yoram Bachrach Michael P. Wellman 28 11 0 01 Feb 2023
Meta Pseudo Labels Hieu H. Pham Zihang Dai Qizhe Xie Minh-Thang Luong Quoc V. Le VLM 262 659 0 23 Mar 2020
Challenges and Countermeasures for Adversarial Attacks on Deep Reinforcement Learning Inaam Ilahi Muhammad Usama Junaid Qadir M. Janjua Ala I. Al-Fuqaha D. Hoang Dusit Niyato AAML 61 132 0 27 Jan 2020
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 313 39,252 0 01 Sep 2014