Black-box Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers

13 January 2018

Papers citing "Black-box Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers"

50 / 360 papers shown

Title
Efficient Black-Box Adversarial Attacks on Neural Text Detectors Vitalii Fishchuk Daniel Braun AAML DeLMO 13 4 0 03 Nov 2023
Robustness Tests for Automatic Machine Translation Metrics with Adversarial Attacks Yichen Huang Timothy Baldwin 25 2 0 01 Nov 2023
Break it, Imitate it, Fix it: Robustness by Generating Human-Like Attacks Aradhana Sinha Ananth Balashankar Ahmad Beirami Thi Avrahami Jilin Chen Alex Beutel AAML 27 4 0 25 Oct 2023
A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions Junchao Wu Shu Yang Runzhe Zhan Yulin Yuan Derek F. Wong Lidia S. Chao DeLMO 32 22 0 23 Oct 2023
CT-GAT: Cross-Task Generative Adversarial Attack based on Transferability Minxuan Lv Chengwei Dai Kun Li Wei Zhou Song Hu AAML 40 6 0 22 Oct 2023
Finite-context Indexing of Restricted Output Space for NLP Models Facing Noisy Input Minh Nguyen Nancy F. Chen 30 0 0 21 Oct 2023
Toward Stronger Textual Attack Detectors Pierre Colombo Marine Picot Nathan Noiry Guillaume Staerman Pablo Piantanida 59 5 0 21 Oct 2023
An LLM can Fool Itself: A Prompt-Based Adversarial Attack Xilie Xu Keyi Kong Ning Liu Li-zhen Cui Di Wang Jingfeng Zhang Mohan Kankanhalli AAML SILM 36 68 0 20 Oct 2023
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks Erfan Shayegani Md Abdullah Al Mamun Yu Fu Pedram Zaree Yue Dong Nael B. Abu-Ghazaleh AAML 147 148 0 16 Oct 2023
BufferSearch: Generating Black-Box Adversarial Texts With Lower Queries Wenjie Lv Zhen Wang Yitao Zheng Zhehua Zhong Qi Xuan Tianyi Chen AAML 31 0 0 14 Oct 2023
Fooling the Textual Fooler via Randomizing Latent Representations Duy C. Hoang Quang H. Nguyen Saurav Manchanda MinLong Peng Kok-Seng Wong Khoa D. Doan SILM AAML 23 0 0 02 Oct 2023
DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks A. Maritan Jiaao Chen S. Dey Luca Schenato Diyi Yang Xing Xie ELM LRM 27 42 0 29 Sep 2023
The Trickle-down Impact of Reward (In-)consistency on RLHF Lingfeng Shen Sihao Chen Linfeng Song Lifeng Jin Baolin Peng Haitao Mi Daniel Khashabi Dong Yu 37 21 0 28 Sep 2023
Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM Bochuan Cao Yu Cao Lu Lin Jinghui Chen AAML 36 135 0 18 Sep 2023
Baseline Defenses for Adversarial Attacks Against Aligned Language Models Neel Jain Avi Schwarzschild Yuxin Wen Gowthami Somepalli John Kirchenbauer Ping Yeh-Chiang Micah Goldblum Aniruddha Saha Jonas Geiping Tom Goldstein AAML 60 340 0 01 Sep 2023
MDTD: A Multi Domain Trojan Detector for Deep Neural Networks Arezoo Rajabi Surudhi Asokraj Feng-Shr Jiang Luyao Niu Bhaskar Ramasubramanian J. Ritcey Radha Poovendran AAML 26 1 0 30 Aug 2023
A Classification-Guided Approach for Adversarial Attacks against Neural Machine Translation Sahar Sadrizadeh Ljiljana Dolamic P. Frossard AAML SILM 40 2 0 29 Aug 2023
An Image is Worth a Thousand Toxic Words: A Metamorphic Testing Framework for Content Moderation Software Wenxuan Wang Jingyuan Huang Jen-tse Huang Chang Chen Jiazhen Gu Pinjia He Michael R. Lyu VLM 36 6 0 18 Aug 2023
Robustness Over Time: Understanding Adversarial Examples' Effectiveness on Longitudinal Versions of Large Language Models Yugeng Liu Tianshuo Cong Zhengyu Zhao Michael Backes Yun Shen Yang Zhang AAML 41 6 0 15 Aug 2023
Robust Infidelity: When Faithfulness Measures on Masked Language Models Are Misleading Evan Crothers H. Viktor Nathalie Japkowicz AAML 19 1 0 13 Aug 2023
Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks Xinyu Zhang Hanbin Hong Yuan Hong Peng Huang Binghui Wang Zhongjie Ba Kui Ren SILM 42 18 0 31 Jul 2023
Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models Dong Lu Zhiqiang Wang Teng Wang Weili Guan Hongchang Gao Feng Zheng AAML 53 65 0 26 Jul 2023
Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation Neel Bhandari Pin-Yu Chen AAML SILM 45 3 0 24 Jul 2023
Certified Robustness for Large Language Models with Self-Denoising Zhen Zhang Guanhua Zhang Bairu Hou Wenqi Fan Qing Li Sijia Liu Yang Zhang Shiyu Chang 19 22 0 14 Jul 2023
Interpretability and Transparency-Driven Detection and Transformation of Textual Adversarial Examples (IT-DT) Bushra Sabir Muhammad Ali Babar Sharif Abuadbba SILM 42 8 0 03 Jul 2023
A Survey on Out-of-Distribution Evaluation of Neural NLP Models Xinzhe Li Ming Liu Shang Gao Wray L. Buntine 14 20 0 27 Jun 2023
Sample Attackability in Natural Language Adversarial Attacks Vyas Raina Mark J. F. Gales SILM 45 1 0 21 Jun 2023
When Vision Fails: Text Attacks Against ViT and OCR Nicholas Boucher Jenny Blessing Ilia Shumailov Ross J. Anderson Nicolas Papernot AAML 36 4 0 12 Jun 2023
Expanding Scope: Adapting English Adversarial Attacks to Chinese Hanyu Liu Chengyuan Cai Yanjun Qi AAML 23 5 0 08 Jun 2023
PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts Kaijie Zhu Jindong Wang Jiaheng Zhou Zichen Wang Hao Chen ... Linyi Yang Weirong Ye Yue Zhang Neil Zhenqiang Gong Xingxu Xie SILM 50 144 0 07 Jun 2023
Adversary for Social Good: Leveraging Adversarial Attacks to Protect Personal Attribute Privacy Xiaoting Li Ling-Hao Chen Dinghao Wu AAML SILM 19 6 0 04 Jun 2023
VoteTRANS: Detecting Adversarial Text without Training by Voting on Hard Labels of Transformations Hoang-Quoc Nguyen-Son Seira Hidano Kazuhide Fukushima S. Kiyomoto Isao Echizen 31 0 0 02 Jun 2023
A Multilingual Evaluation of NER Robustness to Adversarial Inputs A. Srinivasan Sowmya Vajjala AAML 15 3 0 30 May 2023
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework Yangyi Chen Hongcheng Gao Ganqu Cui Lifan Yuan Dehan Kong ... Longtao Huang H. Xue Zhiyuan Liu Maosong Sun Heng Ji AAML ELM 30 6 0 29 May 2023
Modeling Adversarial Attack on Pre-trained Language Models as Sequential Decision Making Xuanjie Fang Sijie Cheng Yang Liu Wen Wang AAML 36 9 0 27 May 2023
Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by Rewriting Text Ashim Gupta Carter Blum Temma Choji Yingjie Fei Shalin S Shah Alakananda Vempala Vivek Srikumar AAML 32 9 0 25 May 2023
How do humans perceive adversarial text? A reality check on the validity and naturalness of word-based adversarial attacks Salijona Dyrmishi Salah Ghamizi Maxime Cordy AAML 26 17 0 24 May 2023
Adversarial Demonstration Attacks on Large Language Models Jiong Wang Zi-yang Liu Keun Hee Park Zhuojun Jiang Zhaoheng Zheng Zhuofeng Wu Muhao Chen Chaowei Xiao SILM 30 52 0 24 May 2023
A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation Xiaowei Huang Wenjie Ruan Wei Huang Gao Jin Yizhen Dong ... Sihao Wu Peipei Xu Dengyu Wu André Freitas Mustafa A. Mustafa ALM 45 83 0 19 May 2023
Iterative Adversarial Attack on Image-guided Story Ending Generation Youze Wang Wenbo Hu Richang Hong 32 3 0 16 May 2023
AF2-Mutation: Adversarial Sequence Mutations against AlphaFold2 on Protein Tertiary Structure Prediction Zhong Yuan Tao Shen Sheng Xu Leiye Yu R. Ren S. Sun 27 2 0 15 May 2023
Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility Wen-song Ye Mingfeng Ou Tianyi Li Yipeng Chen Xuetao Ma ... Sai Wu Jie Fu Gang Chen Haobo Wang J. Zhao 46 36 0 15 May 2023
Attack Named Entity Recognition by Entity Boundary Interference Yifei Yang Hongqiu Wu Hai Zhao AAML 24 5 0 09 May 2023
Toward Adversarial Training on Contextualized Language Representation Hongqiu Wu Yong-Jin Liu Han Shi Haizhen Zhao Hao Fei AAML 23 13 0 08 May 2023
The Best Defense is Attack: Repairing Semantics in Textual Adversarial Examples Heng Yang Ke Li AAML 35 2 0 06 May 2023
Contextual Reasoning for Scene Generation (Technical Report) Asier Gutiérrez-Fandiño Thomas Eiter Aitor Gonzalez-Agirre Daria Stepanova LRM 18 0 0 03 May 2023
Masked Language Model Based Textual Adversarial Example Detection Xiaomei Zhang Zhaoxi Zhang Qi Zhong Xufei Zheng Yanjun Zhang Shengshan Hu L. Zhang AAML 28 0 0 18 Apr 2023
RNN-Guard: Certified Robustness Against Multi-frame Attacks for Recurrent Neural Networks Yunruo Zhang Tianyu Du S. Ji Peng Tang Shanqing Guo AAML 36 2 0 17 Apr 2023
No more Reviewer #2: Subverting Automatic Paper-Reviewer Assignment using Adversarial Learning Thorsten Eisenhofer Erwin Quiring Jonas Moller Doreen Riepel Thorsten Holz Konrad Rieck AAML 26 6 0 25 Mar 2023
NoisyHate: Mining Online Human-Written Perturbations for Realistic Robustness Benchmarking of Content Moderation Models Yiran Ye Thai Le Dongwon Lee AAML DeLMO 33 3 0 18 Mar 2023