Title
Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs Chetan Pathade AAML SILM 170 2 0 07 May 2025
Prompt Flow Integrity to Prevent Privilege Escalation in LLM Agents Juhee Kim Woohyuk Choi Byoungyoung Lee LLMAG 120 1 0 17 Mar 2025
Encryption-Friendly LLM Architecture Donghwan Rho Taeseong Kim Minje Park Jung Woo Kim Hyunsik Chae Jung Hee Cheon Ernest K. Ryu 194 5 0 24 Feb 2025
Beyond Release: Access Considerations for Generative AI Systems Irene Solaiman Rishi Bommasani Dan Hendrycks Ariel Herbert-Voss Yacine Jernite Aviya Skowron Andrew Trask 153 1 0 23 Feb 2025
Safeguarding System Prompts for LLMs Zhifeng Jiang Zhihua Jin Guoliang He AAML SILM 137 2 0 10 Jan 2025
Position: A taxonomy for reporting and describing AI security incidents L. Bieringer Kevin Paeth Andreas Wespi Kathrin Grosse Alexandre Alahi Kathrin Grosse 130 0 0 19 Dec 2024
MiniPLM: Knowledge Distillation for Pre-Training Language Models Yuxian Gu Hao Zhou Fandong Meng Jie Zhou Minlie Huang 128 5 0 22 Oct 2024
A Watermark for Black-Box Language Models Dara Bahri John Wieting WaLM 93 4 0 02 Oct 2024
Pre-trained Encoder Inference: Revealing Upstream Encoders In Downstream Machine Learning Services Shaopeng Fu Xuexue Sun Ke Qing Tianhang Zheng Di Wang AAML MIACV SILM 102 0 0 05 Aug 2024
LLMmap: Fingerprinting For Large Language Models Dario Pasquini Evgenios M. Kornaropoulos G. Ateniese 102 8 0 22 Jul 2024
Watermark Smoothing Attacks against Language Models Hongyan Chang Hamed Hassani Reza Shokri WaLM 93 3 0 19 Jul 2024
ObfuscaTune: Obfuscated Offsite Fine-tuning and Inference of Proprietary LLMs on Private Datasets Ahmed Frikha Nassim Walha Ricardo Mendes Krishna Kanth Nakka Xue Jiang Xuebing Zhou 89 3 0 03 Jul 2024
Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents Avital Shafran R. Schuster Vitaly Shmatikov 89 34 0 09 Jun 2024
Black-Box Detection of Language Model Watermarks Thibaud Gloaguen Nikola Jovanović Robin Staab Martin Vechev 51 6 0 28 May 2024
Logits of API-Protected LLMs Leak Proprietary Information Matthew Finlayson Xiang Ren Swabha Swayamdipta PILM 60 23 0 14 Mar 2024
An Emulator for Fine-Tuning Large Language Models using Small Language Models Eric Mitchell Rafael Rafailov Archit Sharma Chelsea Finn Christopher D. Manning ALM 75 55 0 19 Oct 2023
Stateful Defenses for Machine Learning Models Are Not Yet Secure Against Black-box Attacks Ryan Feng Ashish Hooda Neal Mangaokar Kassem Fawaz S. Jha Atul Prakash AAML 79 13 0 11 Mar 2023
8-bit Optimizers via Block-wise Quantization Tim Dettmers M. Lewis Sam Shleifer Luke Zettlemoyer MQ 107 295 0 06 Oct 2021
FUDGE: Controlled Text Generation With Future Discriminators Kevin Kaichuang Yang Dan Klein 93 331 0 12 Apr 2021
Cryptanalytic Extraction of Neural Network Models Nicholas Carlini Matthew Jagielski Ilya Mironov FedML MLAU MIACV AAML 110 135 0 10 Mar 2020
Reverse-Engineering Deep ReLU Networks David Rolnick Konrad Paul Kording 62 103 0 02 Oct 2019
Stateful Detection of Black-Box Adversarial Attacks Steven Chen Nicholas Carlini D. Wagner AAML MLAU 55 123 0 12 Jul 2019
Stealing Machine Learning Models via Prediction APIs Florian Tramèr Fan Zhang Ari Juels Michael K. Reiter Thomas Ristenpart SILM MLAU 102 1,803 0 09 Sep 2016
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 346 10,467 0 21 Jul 2016