Black-box Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers

13 January 2018

Papers citing "Black-box Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers"

50 / 360 papers shown

Title
Personalized Author Obfuscation with Large Language Models Mohammad Shokri Sarah Ita Levitan Rivka Levitan 2 0 0 17 May 2025
Adversarial Attacks in Multimodal Systems: A Practitioner's Survey Shashank Kapoor Sanjay Surendranath Girija Lakshit Arora Dipen Pradhan Ankit Shetgaonkar Aman Raj AAML 77 0 0 06 May 2025
A Comprehensive Analysis of Adversarial Attacks against Spam Filters Esra Hotoğlu Sevil Sen Burcu Can AAML 29 0 0 04 May 2025
CAMOUFLAGE: Exploiting Misinformation Detection Systems Through LLM-driven Adversarial Claim Transformation Mazal Bethany Nishant Vishwamitra Cho-Yu Chiang Peyman Najafirad AAML 28 0 0 03 May 2025
Q-FAKER: Query-free Hard Black-box Attack via Controlled Generation CheolWon Na YunSeok Choi Jee-Hyong Lee AAML 37 0 0 18 Apr 2025
Bypassing Prompt Injection and Jailbreak Detection in LLM Guardrails William Hackett Lewis Birch Stefan Trawicki N. Suri Peter Garraghan 32 2 0 15 Apr 2025
CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent Liang-bo Ning Shijie Wang Wenqi Fan Qing Li Xin Xu Hao Chen Feiran Huang AAML 30 17 0 13 Apr 2025
Exploring Gradient-Guided Masked Language Model to Detect Textual Adversarial Attacks Xiaomei Zhang Zhaoxi Zhang Yanjun Zhang Xufei Zheng L. Zhang Shengshan Hu Shirui Pan AAML 27 0 0 08 Apr 2025
Enhancing LLM Robustness to Perturbed Instructions: An Empirical Study Aryan Agrawal Lisa Alazraki Shahin Honarvar Marek Rei 57 0 0 03 Apr 2025
Pay More Attention to the Robustness of Prompt for Instruction Data Mining Qiang Wang Dawei Feng Xu Zhang Ao Shen Yang Xu Bo Ding H. Wang AAML 48 0 0 31 Mar 2025
Get the Agents Drunk: Memory Perturbations in Autonomous Agent-based Recommender Systems Shiyi Yang Zhibo Hu Chen Wang Tong Yu Xiwei Xu Liming Zhu Lina Yao AAML 42 0 0 31 Mar 2025
Life-Cycle Routing Vulnerabilities of LLM Router Qiqi Lin Xiaoyang Ji Shengfang Zhai Qingni Shen Zhi-Li Zhang Yuejian Fang Yansong Gao AAML 62 1 0 09 Mar 2025
AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models Hengrui Xing Cong Tian L. Zhao Z. Ma WenSheng Wang N. Zhang Chao Huang Zhenhua Duan 49 0 0 07 Mar 2025
ValuePilot: A Two-Phase Framework for Value-Driven Decision-Making Yitong Luo Hou Hei Lam Ziang Chen Zhenliang Zhang Xue Feng 72 0 0 06 Mar 2025
Decoupling Content and Expression: Two-Dimensional Detection of AI-Generated Text Guangsheng Bao Lihua Rong Yanbin Zhao Qiji Zhou Yue Zhang 38 0 0 01 Mar 2025
Investigating Neurons and Heads in Transformer-based LLMs for Typographical Errors Kohei Tsuji Tatsuya Hiraoka Yuchang Cheng Eiji Aramaki Tomoya Iwakura 79 0 0 27 Feb 2025
Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation Yue Zhou Yi-Ju Chang Yuan Wu MoMe 69 2 0 24 Feb 2025
SEA: Shareable and Explainable Attribution for Query-based Black-box Attacks Yue Gao Ilia Shumailov Kassem Fawaz AAML 148 0 0 21 Feb 2025
Tougher Text, Smarter Models: Raising the Bar for Adversarial Defence Benchmarks Yang Wang Chenghua Lin ELM 40 0 0 05 Jan 2025
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context Nilanjana Das Edward Raff Manas Gaur AAML 106 1 0 20 Dec 2024
Are Language Models Agnostic to Linguistically Grounded Perturbations? A Case Study of Indic Languages Poulami Ghosh Raj Dabre Pushpak Bhattacharyya AAML 75 0 0 14 Dec 2024
BinarySelect to Improve Accessibility of Black-Box Attack Research Shatarupa Ghosh Jonathan Rusert AAML 79 0 0 13 Dec 2024
Pay Attention to the Robustness of Chinese Minority Language Models! Syllable-level Textual Adversarial Attack on Tibetan Script Xi Cao Dolma Dawa Nuo Qun Trashi Nyima AAML 97 3 0 03 Dec 2024
Adversarial Prompt Distillation for Vision-Language Models Lin Luo Xin Wang Bojia Zi Shihao Zhao Xingjun Ma Yu-Gang Jiang AAML VLM 84 1 0 22 Nov 2024
NMT-Obfuscator Attack: Ignore a sentence in translation with only one word Sahar Sadrizadeh César Descalzo Ljiljana Dolamic P. Frossard AAML 74 0 0 19 Nov 2024
DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios Junchao Wu Runzhe Zhan Derek F. Wong Shu Yang Xinyi Yang Yulin Yuan Lidia S. Chao DeLMO 58 2 0 31 Oct 2024
ProTransformer: Robustify Transformers via Plug-and-Play Paradigm Zhichao Hou Weizhi Gao Yuchen Shen Feiyi Wang Xiaorui Liu VLM 30 2 0 30 Oct 2024
TaeBench: Improving Quality of Toxic Adversarial Examples Xuan Zhu Dmitriy Bespalov Liwen You Ninad Kulkarni Yanjun Qi AAML 63 0 0 08 Oct 2024
DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models Sungnyun Kim Haofu Liao Srikar Appalaraju Peng Tang Zhuowen Tu R. Satzoda R. Manmatha Vijay Mahadevan Stefano Soatto 38 0 0 04 Oct 2024
Faithfulness and the Notion of Adversarial Sensitivity in NLP Explanations Supriya Manna Niladri Sett AAML 29 2 0 26 Sep 2024
Reducing and Exploiting Data Augmentation Noise through Meta Reweighting Contrastive Learning for Text Classification Guanyi Mou Yichuan Li Kyumin Lee 36 3 0 26 Sep 2024
OpenFact at CheckThat! 2024: Combining Multiple Attack Methods for Effective Adversarial Text Generation Włodzimierz Lewoniewski P. Stolarski Milena Stróżyna Elzbieta Lewanska Aleksandra Wojewoda Ewelina Księżniak Marcin Sawiński AAML 36 3 0 04 Sep 2024
TF-Attack: Transferable and Fast Adversarial Attacks on Large Language Models Zelin Li Kehai Chen Lemao Liu Xuefeng Bai Mingming Yang Yang Xiang Min Zhang AAML 27 0 0 26 Aug 2024
Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach Jiwei Guan Tianyu Ding Longbing Cao Lei Pan Chen Wang Xi Zheng AAML 33 1 0 24 Aug 2024
Towards Resilient and Efficient LLMs: A Comparative Study of Efficiency, Performance, and Adversarial Robustness Xiaojing Fan Chunliang Tao AAML 39 28 0 08 Aug 2024
CERT-ED: Certifiably Robust Text Classification for Edit Distance Zhuoqun Huang Yipeng Wang Seunghee Shin Benjamin I. P. Rubinstein AAML 48 1 0 01 Aug 2024
Enhancing Adversarial Text Attacks on BERT Models with Projected Gradient Descent Hetvi Waghela Jaydip Sen Sneha Rakshit AAML SILM 35 2 0 29 Jul 2024
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context Nilanjana Das Edward Raff Manas Gaur AAML 35 2 0 19 Jul 2024
Counterfactual Explainable Incremental Prompt Attack Analysis on Large Language Models Dong Shu Mingyu Jin Tianle Chen Chong Zhang Yongfeng Zhang ELM SILM 36 1 0 12 Jul 2024
DiffuseDef: Improved Robustness to Adversarial Attacks via Iterative Denoising Zhenhao Li Huichi Zhou Marek Rei Lucia Specia DiffM 29 0 0 28 Jun 2024
Zero-Query Adversarial Attack on Black-box Automatic Speech Recognition Systems Zheng Fang Tao Wang Lingchen Zhao Shenyi Zhang Bowen Li Yunjie Ge Q. Li Chao Shen Qian Wang 16 4 0 27 Jun 2024
Automated Adversarial Discovery for Safety Classifiers Yash Kumar Lal Preethi Lahoti Aradhana Sinha Yao Qin Ananth Balashankar 55 0 0 24 Jun 2024
MaskPure: Improving Defense Against Text Adversaries with Stochastic Purification Harrison Gietz Jugal Kalita AAML 21 1 0 18 Jun 2024
Obfuscating IoT Device Scanning Activity via Adversarial Example Generation Haocong Li Yaxin Zhang Long Cheng Wenjia Niu Haining Wang Qiang Li AAML 41 0 0 17 Jun 2024
One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models Hao Fang Jiawei Kong Wenbo Yu Bin Chen Jiawei Li Hao Wu Ke Xu Ke Xu AAML VLM 40 13 0 08 Jun 2024
CR-UTP: Certified Robustness against Universal Text Perturbations on Large Language Models Qian Lou Xin Liang Jiaqi Xue Yancheng Zhang Rui Xie Mengxin Zheng AAML 22 0 0 04 Jun 2024
Are AI-Generated Text Detectors Robust to Adversarial Perturbations? Guanhua Huang Yuchen Zhang Zhe Li Yongjian You Mingze Wang Zhouwang Yang DeLMO 43 3 0 03 Jun 2024
Unveiling the Lexical Sensitivity of LLMs: Combinatorial Optimization for Prompt Enhancement Pengwei Zhan Zhen Xu Qian Tan Jie Song Ru Xie 51 7 0 31 May 2024
Deep Learning Approaches for Detecting Adversarial Cyberbullying and Hate Speech in Social Networks S. Azumah Nelly Elsayed Zag ElSayed Murat Ozer Amanda La Guardia 43 1 0 30 May 2024
PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations Jiatong Li Renjun Hu Kunzhe Huang Zhuang Yan Qi Liu Mengxiao Zhu Xing Shi Wei Lin KELM 54 5 0 30 May 2024