Universal Adversarial Attacks with Natural Triggers for Text
Classification

Universal Adversarial Attacks with Natural Triggers for Text Classification

1 May 2020

Hsuan-Tung Peng

Karthik Narasimhan

Papers citing "Universal Adversarial Attacks with Natural Triggers for Text Classification"

15 / 15 papers shown

Title
Black-Box Access is Insufficient for Rigorous AI Audits Stephen Casper Carson Ezell Charlotte Siegmann Noam Kolt Taylor Lynn Curtis ... Michael Gerovitch David Bau Max Tegmark David M. Krueger Dylan Hadfield-Menell AAML 41 78 0 25 Jan 2024
Low-Resource Languages Jailbreak GPT-4 Zheng-Xin Yong Cristina Menghini Stephen H. Bach SILM 31 175 0 03 Oct 2023
Universal Evasion Attacks on Summarization Scoring Wenchuan Mu Kwan Hui Lim AAML 43 1 0 25 Oct 2022
Order-Disorder: Imitation Adversarial Attacks for Black-box Neural Ranking Models Jiawei Liu Yangyang Kang Di Tang Kaisong Song Changlong Sun Xiaofeng Wang Wei Lu Xiaozhong Liu AAML 56 41 0 14 Sep 2022
Red Teaming Language Models with Language Models Ethan Perez Saffron Huang Francis Song Trevor Cai Roman Ring John Aslanides Amelia Glaese Nat McAleese G. Irving AAML 13 613 0 07 Feb 2022
Measure and Improve Robustness in NLP Models: A Survey Xuezhi Wang Haohan Wang Diyi Yang 139 131 0 15 Dec 2021
The King is Naked: on the Notion of Robustness for Natural Language Processing Emanuele La Malfa Marta Z. Kwiatkowska 20 28 0 13 Dec 2021
Robust Feature-Level Adversaries are Interpretability Tools Stephen Casper Max Nadeau Dylan Hadfield-Menell Gabriel Kreiman AAML 53 27 0 07 Oct 2021
MINIMAL: Mining Models for Data Free Universal Adversarial Triggers Swapnil Parekh Yaman Kumar Singla Somesh Singh Changyou Chen Balaji Krishnamurthy R. Shah AAML 24 3 0 25 Sep 2021
Automatically Exposing Problems with Neural Dialog Models Dian Yu Kenji Sagae 31 9 0 14 Sep 2021
Gradient-based Adversarial Attacks against Text Transformers Chuan Guo Alexandre Sablayrolles Hervé Jégou Douwe Kiela SILM 106 230 0 15 Apr 2021
A Survey On Universal Adversarial Attack Chaoning Zhang Philipp Benz Chenguo Lin Adil Karjauv Jing Wu In So Kweon AAML 28 90 0 02 Mar 2021
Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive Review Yansong Gao Bao Gia Doan Zhi-Li Zhang Siqi Ma Jiliang Zhang Anmin Fu Surya Nepal Hyoungshick Kim AAML 36 221 0 21 Jul 2020
Constructing Unrestricted Adversarial Examples with Generative Models Yang Song Rui Shu Nate Kushman Stefano Ermon GAN AAML 185 302 0 21 May 2018
Generating Natural Language Adversarial Examples M. Alzantot Yash Sharma Ahmed Elgohary Bo-Jhang Ho Mani B. Srivastava Kai-Wei Chang AAML 258 916 0 21 Apr 2018