Gradient-based Adversarial Attacks against Text Transformers

15 April 2021

Chuan Guo

Alexandre Sablayrolles

Hervé Jégou

Douwe Kiela

SILM

ArXiv PDF HTML

Papers citing "Gradient-based Adversarial Attacks against Text Transformers"

44 / 44 papers shown

Title
Adaptive Stress Testing Black-Box LLM Planners Neeloy Chakraborty John Pohovey Melkior Ornik Katherine Driggs-Campbell 28 0 0 08 May 2025
LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures Francisco Aguilera-Martínez Fernando Berzal PILM 52 0 0 02 May 2025
Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs Mohammad Akbar-Tajari Mohammad Taher Pilehvar Mohammad Mahmoody AAML 46 0 0 26 Apr 2025
Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models Jiawei Lian Jianhong Pan L. Wang Yi Wang Shaohui Mei Lap-Pui Chau AAML 29 0 0 07 Apr 2025
Single-pass Detection of Jailbreaking Input in Large Language Models Leyla Naz Candogan Yongtao Wu Elias Abad Rocamora Grigorios G. Chrysos V. Cevher AAML 51 0 0 24 Feb 2025
SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models S. Lee Dong Bok Lee Dominik Wagner Minki Kang Haebin Seong Tobias Bocklet Juho Lee Sung Ju Hwang 2 0 0 18 Feb 2025
Universal Adversarial Attack on Aligned Multimodal LLMs Temurbek Rahmatullaev Polina Druzhinina Matvey Mikhalchuk Andrey Kuznetsov Anton Razzhigaev AAML 105 0 0 11 Feb 2025
FIT-Print: Towards False-claim-resistant Model Ownership Verification via Targeted Fingerprint Shuo Shao Haozhe Zhu Hongwei Yao Yiming Li Tianwei Zhang Zhanyue Qin Kui Ren 152 0 0 28 Jan 2025
DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak Hao Wang Hao Li Junda Zhu Xinyuan Wang C. Pan Minlie Huang Lei Sha 142 0 0 23 Dec 2024
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context Nilanjana Das Edward Raff Manas Gaur AAML 106 1 0 20 Dec 2024
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models Zhi-Yi Chin Kuan-Chen Mu Mario Fritz Pin-Yu Chen DiffM 85 0 0 25 Nov 2024
SPIN: Self-Supervised Prompt INjection Leon Zhou Junfeng Yang Chengzhi Mao AAML SILM 30 0 0 17 Oct 2024
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation Qizhang Li Xiaochen Yang W. Zuo Yiwen Guo AAML 68 0 0 15 Oct 2024
CERT-ED: Certifiably Robust Text Classification for Edit Distance Zhuoqun Huang Yipeng Wang Seunghee Shin Benjamin I. P. Rubinstein AAML 48 1 0 01 Aug 2024
Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification Boyang Zhang Yicong Tan Yun Shen Ahmed Salem Michael Backes Savvas Zannettou Yang Zhang LLMAG AAML 44 14 0 30 Jul 2024
On Behalf of the Stakeholders: Trends in NLP Model Interpretability in the Era of LLMs Nitay Calderon Roi Reichart 40 10 0 27 Jul 2024
Obfuscating IoT Device Scanning Activity via Adversarial Example Generation Haocong Li Yaxin Zhang Long Cheng Wenjia Niu Haining Wang Qiang Li AAML 41 0 0 17 Jun 2024
"Not Aligned" is Not "Malicious": Being Careful about Hallucinations of Large Language Models' Jailbreak Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Jiayi Mao Xueqi Cheng AAML 47 9 0 17 Jun 2024
SoK: Leveraging Transformers for Malware Analysis Pradip Kunwar Kshitiz Aryal Maanak Gupta Mahmoud Abdelsalam Elisa Bertino 90 0 0 27 May 2024
Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs Valeriia Cherepanova James Zou AAML 33 4 0 26 Apr 2024
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing Jiabao Ji Bairu Hou Zhen Zhang Guanhua Zhang Wenqi Fan Qing Li Yang Zhang Gaowen Liu Sijia Liu Shiyu Chang AAML 40 5 0 18 Apr 2024
ImgTrojan: Jailbreaking Vision-Language Models with ONE Image Xijia Tao Shuai Zhong Lei Li Qi Liu Lingpeng Kong 39 25 0 05 Mar 2024
Fast Adversarial Attacks on Language Models In One GPU Minute Vinu Sankar Sadasivan Shoumik Saha Gaurang Sriramanan Priyatham Kattakinda Atoosa Malemir Chegini S. Feizi MIALM 37 34 0 23 Feb 2024
Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space Leo Schwinn David Dobre Sophie Xhonneux Gauthier Gidel Stephan Gunnemann AAML 51 38 0 14 Feb 2024
Attacking Large Language Models with Projected Gradient Descent Simon Geisler Tom Wollschlager M. H. I. Abdalla Johannes Gasteiger Stephan Günnemann AAML SILM 49 50 0 14 Feb 2024
Gradient-Based Language Model Red Teaming Nevan Wichers Carson E. Denison Ahmad Beirami 19 25 0 30 Jan 2024
Black-Box Access is Insufficient for Rigorous AI Audits Stephen Casper Carson Ezell Charlotte Siegmann Noam Kolt Taylor Lynn Curtis ... Michael Gerovitch David Bau Max Tegmark David M. Krueger Dylan Hadfield-Menell AAML 34 78 0 25 Jan 2024
Prompt have evil twins Rimon Melamed Lucas H. McCabe T. Wakhare Yejin Kim H. H. Huang Enric Boix-Adsera 36 3 0 13 Nov 2023
Adversarial Attacks on Tables with Entity Swap A. Koleva Martin Ringsquandl Volker Tresp AAML 27 3 0 15 Sep 2023
A Classification-Guided Approach for Adversarial Attacks against Neural Machine Translation Sahar Sadrizadeh Ljiljana Dolamic P. Frossard AAML SILM 37 2 0 29 Aug 2023
Uncertainty Estimation of Transformers' Predictions via Topological Analysis of the Attention Matrices Elizaveta Kostenok D. Cherniavskii Alexey Zaytsev 56 5 0 22 Aug 2023
Modeling Adversarial Attack on Pre-trained Language Models as Sequential Decision Making Xuanjie Fang Sijie Cheng Yang Liu Wen Wang AAML 34 9 0 27 May 2023
Explaining Recommendation System Using Counterfactual Textual Explanations Niloofar Ranjbar S. Momtazi MohammadMehdi Homayounpour 27 4 0 14 Mar 2023
Step by Step Loss Goes Very Far: Multi-Step Quantization for Adversarial Text Attacks Piotr Gaiñski Klaudia Bałazy 24 6 0 10 Feb 2023
TransFool: An Adversarial Attack against Neural Machine Translation Models Sahar Sadrizadeh Ljiljana Dolamic P. Frossard SILM AAML 39 12 0 02 Feb 2023
Character-level White-Box Adversarial Attacks against Transformers via Attachable Subwords Substitution Aiwei Liu Honghai Yu Xuming Hu Shuang Li Li Lin Fukun Ma Yawen Yang Lijie Wen 33 33 0 31 Oct 2022
Scaling Laws for Reward Model Overoptimization Leo Gao John Schulman Jacob Hilton ALM 41 475 0 19 Oct 2022
CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated Learning Samuel Maddock Alexandre Sablayrolles Pierre Stock FedML 17 22 0 06 Oct 2022
Rethinking Textual Adversarial Defense for Pre-trained Language Models Jiayi Wang Rongzhou Bao Zhuosheng Zhang Hai Zhao AAML SILM 17 11 0 21 Jul 2022
Adversarial Training for High-Stakes Reliability Daniel M. Ziegler Seraphina Nix Lawrence Chan Tim Bauman Peter Schmidt-Nielsen ... Noa Nabeshima Benjamin Weinstein-Raun D. Haas Buck Shlegeris Nate Thomas AAML 32 59 0 03 May 2022
Logically Consistent Adversarial Attacks for Soft Theorem Provers Alexander Gaskell Yishu Miao Lucia Specia Francesca Toni AAML 18 7 0 29 Apr 2022
Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to CNNs Philipp Benz Soomin Ham Chaoning Zhang Adil Karjauv In So Kweon AAML ViT 47 78 0 06 Oct 2021
Detecting Textual Adversarial Examples through Randomized Substitution and Vote Xiaosen Wang Yifeng Xiong Kun He AAML 17 11 0 13 Sep 2021
Generating Natural Language Adversarial Examples M. Alzantot Yash Sharma Ahmed Elgohary Bo-Jhang Ho Mani B. Srivastava Kai-Wei Chang AAML 245 914 0 21 Apr 2018