Title
Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models Lei Jiang Zixun Zhang Zizhou Wang Xiaobing Sun Zhen Li Liangli Zhen Xiaohua Xu AAML 31 0 0 20 Jun 2025
The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models Peiyuan Tang Haojie Xin Xiaodong Zhang Jun Sun Qin Xia Zijiang Yang VLM 28 0 0 15 Jun 2025
Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures Yukai Zhou Sibei Yang Wenjie Wang AAML 21 0 0 09 Jun 2025
A Trustworthiness-based Metaphysics of Artificial Intelligence Systems Andrea Ferrario 44 0 0 03 Jun 2025
IF-GUIDE: Influence Function-Guided Detoxification of LLMs Zachary Coalson Juhan Bae Nicholas Carlini Sanghyun Hong TDI 96 0 0 02 Jun 2025
Fighting Fire with Fire (F3): A Training-free and Efficient Visual Adversarial Example Purification Method in LVLMs Yudong Zhang Ruobing Xie Yiqing Huang Jiansheng Chen Xingwu Sun Zhanhui Kang Di Wang Yu Wang AAML 55 0 0 01 Jun 2025
Existing Large Language Model Unlearning Evaluations Are Inconclusive Zhili Feng Yixuan Even Xu Alexander Robey Robert Kirk Xander Davies Yarin Gal Avi Schwarzschild J. Zico Kolter MU ELM 37 0 0 31 May 2025
One Surrogate to Fool Them All: Universal, Transferable, and Targeted Adversarial Attacks with CLIP Binyan Xu Xilin Dai Di Tang Kehuan Zhang AAML 26 0 0 26 May 2025
One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs Linbao Li Y. Liu Daojing He Yu Li AAML 122 0 0 23 May 2025
Safety Alignment Can Be Not Superficial With Explicit Safety Signals Jianwei Li Jung-Eng Kim AAML 192 1 0 19 May 2025
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs Haoming Yang Ke Ma Xiaojun Jia Yingfei Sun Qianqian Xu Qingming Huang AAML 442 0 0 03 May 2025
Transferable Adversarial Attacks on Black-Box Vision-Language Models Kai Hu Weichen Yu Lefei Zhang Alexander Robey Andy Zou Chengming Xu Haoqi Hu Matt Fredrikson AAML VLM 141 2 0 02 May 2025
A Cryptographic Perspective on Mitigation vs. Detection in Machine Learning Greg Gluch Shafi Goldwasser AAML 137 0 0 28 Apr 2025
Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models Runpeng Dai Run Yang Fan Zhou Hongtu Zhu 64 0 0 28 Mar 2025
TAIJI: Textual Anchoring for Immunizing Jailbreak Images in Vision Language Models Xiangyu Yin Yi Qi Jinwei Hu Zhen Chen Yi Dong Xingyu Zhao Xiaowei Huang Wenjie Ruan 102 0 0 13 Mar 2025
Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs Wenzhuo Xu Zhipeng Wei Xiongtao Sun Deyue Zhang Dongdong Yang Quanchen Zou Xinming Zhang AAML 92 0 0 10 Mar 2025
FC-Attack: Jailbreaking Multimodal Large Language Models via Auto-Generated Flowcharts Ziyi Zhang Zhen Sun Zheng Zhang Jihui Guo Xinlei He AAML 143 4 0 28 Feb 2025
JailBench: A Comprehensive Chinese Security Assessment Benchmark for Large Language Models Shuyi Liu Simiao Cui Haoran Bu Yuming Shang Xi Zhang ELM 85 2 0 26 Feb 2025
Shh, don't say that! Domain Certification in LLMs Cornelius Emde Alasdair Paren Preetham Arvind Maxime Kayser Tom Rainforth Thomas Lukasiewicz Guohao Li Philip Torr Adel Bibi 122 2 0 26 Feb 2025
Adversarial Prompt Evaluation: Systematic Benchmarking of Guardrails Against Prompt Input Attacks on LLMs Giulio Zizzo Giandomenico Cornacchia Kieran Fraser Muhammad Zaid Hameed Ambrish Rawat Beat Buesser Mark Purcell Pin-Yu Chen P. Sattigeri Kush R. Varshney AAML 118 5 0 24 Feb 2025
On the Vulnerability of Concept Erasure in Diffusion Models Lucas Beerens Alex D. Richardson Peng Sun Dongdong Chen DiffM 184 2 0 24 Feb 2025
Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming Rui Li Peiyi Wang Jingyuan Ma Di Zhang Lei Sha Zhifang Sui LLMAG 158 0 0 22 Feb 2025
Universal Adversarial Attack on Aligned Multimodal LLMs Temurbek Rahmatullaev Polina Druzhinina Nikita Kurdiukov Matvey Mikhalchuk Andrey Kuznetsov Anton Razzhigaev AAML 232 0 0 11 Feb 2025
JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation Shenyi Zhang Yuchen Zhai Keyan Guo Hongxin Hu Shengnan Guo Zheng Fang Lingchen Zhao Chao Shen Cong Wang Qian Wang AAML 150 4 0 11 Feb 2025
Confidence Elicitation: A New Attack Vector for Large Language Models Brian Formento Chuan-Sheng Foo See-Kiong Ng AAML 274 0 0 07 Feb 2025
Adversarial ML Problems Are Getting Harder to Solve and to Evaluate Javier Rando Jie Zhang Nicholas Carlini F. Tramèr AAML ELM 148 9 0 04 Feb 2025
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities Zora Che Stephen Casper Robert Kirk Anirudh Satheesh Stewart Slocum ... Zikui Cai Bilal Chughtai Y. Gal Furong Huang Dylan Hadfield-Menell MU AAML ELM 191 8 0 03 Feb 2025
Playing Devil's Advocate: Unmasking Toxicity and Vulnerabilities in Large Vision-Language Models Abdulkadir Erol Trilok Padhi Agnik Saha Ugur Kursuncu Mehmet Emin Aktas 101 2 0 17 Jan 2025
GASLITEing the Retrieval: Exploring Vulnerabilities in Dense Embedding-based Search Matan Ben-Tov Mahmood Sharif RALM 217 1 0 31 Dec 2024
Adversarial Hubness in Multi-Modal Retrieval Tingwei Zhang Fnu Suya Rishi Jha Collin Zhang Vitaly Shmatikov AAML 185 1 0 18 Dec 2024
PrisonBreak: Jailbreaking Large Language Models with Fewer Than Twenty-Five Targeted Bit-flips Zachary Coalson Jeonghyun Woo Shiyang Chen Yu Sun Lishan Yang Prashant J. Nair Bo Fang Sanghyun Hong AAML 140 3 0 10 Dec 2024
Steering Language Model Refusal with Sparse Autoencoders Kyle O'Brien David Majercak Xavier Fernandes Richard Edgar Blake Bullwinkel Jingya Chen Harsha Nori Dean Carignan Eric Horvitz Forough Poursabzi-Sangde LLMSV 166 18 0 18 Nov 2024
Diversity Helps Jailbreak Large Language Models Weiliang Zhao Daniel Ben-Levi Wei Hao Junfeng Yang Chengzhi Mao AAML 493 1 0 06 Nov 2024
Focus On This, Not That! Steering LLMs with Adaptive Feature Specification Tom A. Lamb Adam Davies Alasdair Paren Philip Torr Francesco Pinto 129 0 0 30 Oct 2024
On the Role of Attention Heads in Large Language Model Safety Zhenhong Zhou Haiyang Yu Xinghua Zhang Rongwu Xu Fei Huang Kun Wang Yang Liu Sihang Li Yongbin Li 166 10 0 17 Oct 2024
Estimating the Probabilities of Rare Outputs in Language Models Gabriel Wu Jacob Hilton AAML UQCV 137 3 0 17 Oct 2024
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation Qizhang Li Xiaochen Yang W. Zuo Yiwen Guo AAML 154 1 0 15 Oct 2024
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates Xiaosen Zheng Tianyu Pang Chao Du Qian Liu Jing Jiang Min Lin 89 13 0 09 Oct 2024
Multimodal Pragmatic Jailbreak on Text-to-image Models Tong Liu Zhixin Lai Jiawen Wang Gengyuan Zhang Shuo Chen Philip Torr Vera Demberg Volker Tresp Jindong Gu 75 5 0 27 Sep 2024
LLMmap: Fingerprinting For Large Language Models Dario Pasquini Evgenios M. Kornaropoulos G. Ateniese 185 8 0 22 Jul 2024
Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs S. Kadhe Farhan Ahmed Dennis Wei Nathalie Baracaldo Inkit Padhi MoMe MU 90 8 0 17 Jun 2024
Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries Jiahao Yu Haozheng Luo Jerry Yao-Chieh Hu Wenbo Guo Han Liu Xinyu Xing 113 21 0 31 May 2024
Revisiting character-level adversarial attacks Elias Abad Rocamora Yongtao Wu Fanghui Liu Grigorios G. Chrysos Volkan Cevher AAML 96 4 0 07 May 2024
Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs Valeriia Cherepanova James Zou AAML 102 6 0 26 Apr 2024
Don't Say No: Jailbreaking LLM by Suppressing Refusal Yukai Zhou Jian Lou Zhijie Huang Zhan Qin Yibei Yang Wenjie Wang AAML 116 19 0 25 Apr 2024
JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models Yingchaojie Feng Zhizhang Chen Zhining Kang Sijia Wang Haoyu Tian Wei Zhang Minfeng Zhu Wei Chen 118 4 0 12 Apr 2024
SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety Paul Röttger Fabio Pernisi Bertie Vidgen Dirk Hovy ELM KELM 169 39 0 08 Apr 2024
Optimization-based Prompt Injection Attack to LLM-as-a-Judge Jiawen Shi Zenghui Yuan Yinuo Liu Yue Huang Pan Zhou Lichao Sun Neil Zhenqiang Gong AAML 149 57 0 26 Mar 2024
Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models Yifan Li Hangyu Guo Kun Zhou Wayne Xin Zhao Ji-Rong Wen 136 56 0 14 Mar 2024
Here Comes The AI Worm: Unleashing Zero-click Worms that Target GenAI-Powered Applications Stav Cohen Ron Bitton Ben Nassi 103 24 0 05 Mar 2024