Towards Improving Adversarial Training of NLP Models

1 September 2021

Papers citing "Towards Improving Adversarial Training of NLP Models"

26 / 26 papers shown

Title
On Adversarial Robustness of Language Models in Transfer Learning Bohdan Turbal Anastasiia Mazur Jiaxu Zhao Mykola Pechenizkiy AAML 45 0 0 03 Jan 2025
Automated Trustworthiness Oracle Generation for Machine Learning Text Classifiers Lam Nguyen Tung Steven Cho Xiaoning Du Neelofar Neelofar Valerio Terragni Stefano Ruberto Aldeida Aleti 189 2 0 30 Oct 2024
TaeBench: Improving Quality of Toxic Adversarial Examples Xuan Zhu Dmitriy Bespalov Liwen You Ninad Kulkarni Yanjun Qi AAML 65 0 0 08 Oct 2024
IDT: Dual-Task Adversarial Attacks for Privacy Protection Pedro Faustini Shakila Mahjabin Tonni Annabelle McIver Qiongkai Xu Mark Dras SILM AAML 52 0 0 28 Jun 2024
DiffuseDef: Improved Robustness to Adversarial Attacks via Iterative Denoising Zhenhao Li Huichi Zhou Marek Rei Lucia Specia DiffM 34 0 0 28 Jun 2024
Single Word Change is All You Need: Designing Attacks and Defenses for Text Classifiers Lei Xu Sarah Alnegheimish Laure Berti-Equille Alfredo Cuesta-Infante K. Veeramachaneni AAML 21 0 0 30 Jan 2024
Towards Effective Paraphrasing for Information Disguise Anmol Agarwal Shrey Gupta Vamshi Krishna Bonagiri Manas Gaur Joseph M. Reagle Ponnurangam Kumaraguru 37 3 0 08 Nov 2023
Toward Stronger Textual Attack Detectors Pierre Colombo Marine Picot Nathan Noiry Guillaume Staerman Pablo Piantanida 59 5 0 21 Oct 2023
A Classification-Guided Approach for Adversarial Attacks against Neural Machine Translation Sahar Sadrizadeh Ljiljana Dolamic P. Frossard AAML SILM 44 2 0 29 Aug 2023
Adversarial Illusions in Multi-Modal Embeddings Tingwei Zhang Rishi Jha Eugene Bagdasaryan Vitaly Shmatikov AAML 34 8 0 22 Aug 2023
LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial Attack HaiXiang Zhu Zhaoqing Yang Weiwei Shang Yuren Wu AAML FAtt 10 3 0 01 Aug 2023
DARE: Towards Robust Text Explanations in Biomedical and Healthcare Applications Adam Ivankay Mattia Rigotti P. Frossard OOD MedIm 29 1 0 05 Jul 2023
Modeling Adversarial Attack on Pre-trained Language Models as Sequential Decision Making Xuanjie Fang Sijie Cheng Yang Liu Wen Wang AAML 39 9 0 27 May 2023
TextDefense: Adversarial Text Detection based on Word Importance Entropy Lujia Shen Xuhong Zhang S. Ji Yuwen Pu Chunpeng Ge Xing Yang Yanghe Feng AAML 23 8 0 12 Feb 2023
Impact of Adversarial Training on Robustness and Generalizability of Language Models Enes Altinisik Hassan Sajjad Husrev Taha Sencar Safa Messaoud Sanjay Chawla AAML 24 8 0 10 Nov 2022
TCAB: A Large-Scale Text Classification Attack Benchmark Kalyani Asthana Zhouhang Xie Wencong You Adam Noack Jonathan Brophy Sameer Singh Daniel Lowd 39 3 0 21 Oct 2022
UU-Tax at SemEval-2022 Task 3: Improving the generalizability of language models for taxonomy classification through data augmentation I. Sarhan P. Mosteiro Marco Spruit 31 2 0 07 Oct 2022
State-of-the-art generalisation research in NLP: A taxonomy and review Dieuwke Hupkes Mario Giulianelli Verna Dankers Mikel Artetxe Yanai Elazar ... Leila Khalatbari Maria Ryskina Rita Frieske Ryan Cotterell Zhijing Jin 121 94 0 06 Oct 2022
Learning to Ignore Adversarial Attacks Yiming Zhang Yan Zhou Samuel Carton Chenhao Tan 54 2 0 23 May 2022
Don't sweat the small stuff, classify the rest: Sample Shielding to protect text classifiers against adversarial attacks Jonathan Rusert P. Srinivasan AAML 19 3 0 03 May 2022
Detecting Textual Adversarial Examples Based on Distributional Characteristics of Data Representations Na Liu Mark Dras Wei Emma Zhang AAML 22 6 0 29 Apr 2022
Identifying Adversarial Attacks on Text Classifiers Zhouhang Xie Jonathan Brophy Adam Noack Wencong You Kalyani Asthana Carter Perkins Sabrina Reis Sameer Singh Daniel Lowd AAML 29 9 0 21 Jan 2022
Unveiling Project-Specific Bias in Neural Code Models Zhiming Li Yanzhou Li Tianlin Li Mengnan Du Bozhi Wu Yushi Cao Yi Li Yang Liu 31 5 0 19 Jan 2022
Certified Robustness to Adversarial Word Substitutions Robin Jia Aditi Raghunathan Kerem Göksel Percy Liang AAML 185 291 0 03 Sep 2019
Generating Natural Language Adversarial Examples M. Alzantot Yash Sharma Ahmed Elgohary Bo-Jhang Ho Mani B. Srivastava Kai-Wei Chang AAML 258 915 0 21 Apr 2018
Adversarial examples in the physical world Alexey Kurakin Ian Goodfellow Samy Bengio SILM AAML 287 5,842 0 08 Jul 2016