Certified Robustness to Adversarial Word Substitutions

3 September 2019

Robin Jia

Papers citing "Certified Robustness to Adversarial Word Substitutions"

50 / 76 papers shown

Title
Ensemble Debiasing Across Class and Sample Levels for Fairer Prompting Accuracy Ruixi Lin Ziqiao Wang Yang You FaML 89 1 0 07 Mar 2025
SEA: Shareable and Explainable Attribution for Query-based Black-box Attacks Yue Gao Ilia Shumailov Kassem Fawaz AAML 148 0 0 21 Feb 2025
CERT-ED: Certifiably Robust Text Classification for Edit Distance Zhuoqun Huang Yipeng Wang Seunghee Shin Benjamin I. P. Rubinstein AAML 56 1 0 01 Aug 2024
Adversarial Evasion Attack Efficiency against Large Language Models João Vitorino Eva Maia Isabel Praça AAML 43 2 0 12 Jun 2024
Adversarial Text Purification: A Large Language Model Approach for Defense Raha Moraffah Shubh Khandelwal Amrita Bhattacharjee Huan Liu DeLMO AAML 36 5 0 05 Feb 2024
Towards Effective Paraphrasing for Information Disguise Anmol Agarwal Shrey Gupta Vamshi Krishna Bonagiri Manas Gaur Joseph M. Reagle Ponnurangam Kumaraguru 40 3 0 08 Nov 2023
Finite-context Indexing of Restricted Output Space for NLP Models Facing Noisy Input Minh Nguyen Nancy F. Chen 30 0 0 21 Oct 2023
Toward Stronger Textual Attack Detectors Pierre Colombo Marine Picot Nathan Noiry Guillaume Staerman Pablo Piantanida 62 5 0 21 Oct 2023
The Trickle-down Impact of Reward (In-)consistency on RLHF Lingfeng Shen Sihao Chen Linfeng Song Lifeng Jin Baolin Peng Haitao Mi Daniel Khashabi Dong Yu 40 21 0 28 Sep 2023
Adversarial Illusions in Multi-Modal Embeddings Tingwei Zhang Rishi Jha Eugene Bagdasaryan Vitaly Shmatikov AAML 34 8 0 22 Aug 2023
Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks Xinyu Zhang Hanbin Hong Yuan Hong Peng Huang Binghui Wang Zhongjie Ba Kui Ren SILM 44 18 0 31 Jul 2023
Adversarial Demonstration Attacks on Large Language Models Jiong Wang Zi-yang Liu Keun Hee Park Zhuojun Jiang Zhaoheng Zheng Zhuofeng Wu Muhao Chen Chaowei Xiao SILM 42 52 0 24 May 2023
A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation Xiaowei Huang Wenjie Ruan Wei Huang Gao Jin Yizhen Dong ... Sihao Wu Peipei Xu Dengyu Wu André Freitas Mustafa A. Mustafa ALM 45 83 0 19 May 2023
Backdoor Learning for NLP: Recent Advances, Challenges, and Future Research Directions Marwan Omar SILM AAML 33 20 0 14 Feb 2023
TextShield: Beyond Successfully Detecting Adversarial Sentences in Text Classification Lingfeng Shen Ze Zhang Haiyun Jiang Ying-Cong Chen AAML 41 5 0 03 Feb 2023
RS-Del: Edit Distance Robustness Certificates for Sequence Classifiers via Randomized Deletion Zhuoqun Huang Neil G. Marchant Keane Lucas Lujo Bauer O. Ohrimenko Benjamin I. P. Rubinstein AAML 32 15 0 31 Jan 2023
REaaS: Enabling Adversarially Robust Downstream Classifiers via Robust Encoder as a Service Wenjie Qu Jinyuan Jia Neil Zhenqiang Gong SILM AAML 34 4 0 07 Jan 2023
Impact of Adversarial Training on Robustness and Generalizability of Language Models Enes Altinisik Hassan Sajjad Husrev Taha Sencar Safa Messaoud Sanjay Chawla AAML 24 8 0 10 Nov 2022
Can Transformers Reason in Fragments of Natural Language? Viktor Schlegel Kamen V. Pavlov Ian Pratt-Hartmann LRM ReLM 35 7 0 10 Nov 2022
Textual Manifold-based Defense Against Natural Language Adversarial Examples D. M. Nguyen Anh Tuan Luu AAML 27 17 0 05 Nov 2022
Emergent Linguistic Structures in Neural Networks are Fragile Emanuele La Malfa Matthew Wicker Marta Kiatkowska 22 1 0 31 Oct 2022
ADDMU: Detection of Far-Boundary Adversarial Examples with Data and Model Uncertainty Estimation Fan Yin Yao Li Cho-Jui Hsieh Kai-Wei Chang AAML 69 4 0 22 Oct 2022
TCAB: A Large-Scale Text Classification Attack Benchmark Kalyani Asthana Zhouhang Xie Wencong You Adam Noack Jonathan Brophy Sameer Singh Daniel Lowd 39 3 0 21 Oct 2022
Identifying Human Strategies for Generating Word-Level Adversarial Examples Maximilian Mozes Bennett Kleinberg Lewis D. Griffin AAML 33 1 0 20 Oct 2022
Why Should Adversarial Perturbations be Imperceptible? Rethink the Research Paradigm in Adversarial NLP Yangyi Chen Hongcheng Gao Ganqu Cui Fanchao Qi Longtao Huang Zhiyuan Liu Maosong Sun SILM 25 45 0 19 Oct 2022
Controllable Fake Document Infilling for Cyber Deception Yibo Hu Yu Lin Eric Parolin Latif Khan Kevin W. Hamlen 35 8 0 18 Oct 2022
Montague semantics and modifier consistency measurement in neural language models Danilo S. Carvalho Edoardo Manino Julia Rozanova Lucas C. Cordeiro André Freitas 24 0 0 10 Oct 2022
Rethinking Textual Adversarial Defense for Pre-trained Language Models Jiayi Wang Rongzhou Bao Zhuosheng Zhang Hai Zhao AAML SILM 28 11 0 21 Jul 2022
Learning to Ignore Adversarial Attacks Yiming Zhang Yan Zhou Samuel Carton Chenhao Tan 54 2 0 23 May 2022
Learn2Weight: Parameter Adaptation against Similar-domain Adversarial Attacks Siddhartha Datta AAML 34 4 0 15 May 2022
AEON: A Method for Automatic Evaluation of NLP Test Cases Jen-tse Huang Jianping Zhang Wenxuan Wang Pinjia He Yuxin Su Michael R. Lyu 40 23 0 13 May 2022
Don't sweat the small stuff, classify the rest: Sample Shielding to protect text classifiers against adversarial attacks Jonathan Rusert P. Srinivasan AAML 19 3 0 03 May 2022
Detecting Textual Adversarial Examples Based on Distributional Characteristics of Data Representations Na Liu Mark Dras Wei Emma Zhang AAML 22 6 0 29 Apr 2022
Systematicity, Compositionality and Transitivity of Deep NLP Models: a Metamorphic Testing Perspective Edoardo Manino Julia Rozanova Danilo S. Carvalho André Freitas Lucas C. Cordeiro 30 7 0 26 Apr 2022
DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust Conversational Modeling Lahari Poddar Peiyao Wang J. Reinspach 19 5 0 15 Apr 2022
"That Is a Suspicious Reaction!": Interpreting Logits Variation to Detect NLP Adversarial Attacks Edoardo Mosca Shreyash Agarwal Javier Rando Georg Groh AAML 32 30 0 10 Apr 2022
Adversarial Training for Improving Model Robustness? Look at Both Prediction and Interpretation Hanjie Chen Yangfeng Ji OOD AAML VLM 32 21 0 23 Mar 2022
Distinguishing Non-natural from Natural Adversarial Samples for More Robust Pre-trained Language Model Jiayi Wang Rongzhou Bao Zhuosheng Zhang Hai Zhao AAML 29 4 0 19 Mar 2022
Generalized but not Robust? Comparing the Effects of Data Modification Methods on Out-of-Domain Generalization and Adversarial Robustness Tejas Gokhale Swaroop Mishra Man Luo Bhavdeep Singh Sachdeva Chitta Baral 52 29 0 15 Mar 2022
Identifying Adversarial Attacks on Text Classifiers Zhouhang Xie Jonathan Brophy Adam Noack Wencong You Kalyani Asthana Carter Perkins Sabrina Reis Sameer Singh Daniel Lowd AAML 29 9 0 21 Jan 2022
Robust Natural Language Processing: Recent Advances, Challenges, and Future Directions Marwan Omar Soohyeon Choi Daehun Nyang David A. Mohaisen 32 57 0 03 Jan 2022
How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial Robustness? Xinhsuai Dong Anh Tuan Luu Min Lin Shuicheng Yan Hanwang Zhang SILM AAML 20 55 0 22 Dec 2021
Measure and Improve Robustness in NLP Models: A Survey Xuezhi Wang Haohan Wang Diyi Yang 139 130 0 15 Dec 2021
The King is Naked: on the Notion of Robustness for Natural Language Processing Emanuele La Malfa Marta Z. Kwiatkowska 20 28 0 13 Dec 2021
Quantifying and Understanding Adversarial Examples in Discrete Input Spaces Volodymyr Kuleshov Evgenii Nikishin S. Thakoor Tingfung Lau Stefano Ermon AAML 27 1 0 12 Dec 2021
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models Wei Ping Chejian Xu Shuohang Wang Zhe Gan Yu Cheng Jianfeng Gao Ahmed Hassan Awadallah Yangqiu Song VLM ELM AAML 33 215 0 04 Nov 2021
Symbolic Brittleness in Sequence Models: on Systematic Generalization in Symbolic Mathematics Sean Welleck Peter West Jize Cao Yejin Choi 21 28 0 28 Sep 2021
BERT is Robust! A Case Against Synonym-Based Adversarial Examples in Text Classification J. Hauser Zhao Meng Damian Pascual Roger Wattenhofer OOD SILM AAML 193 13 0 15 Sep 2021
Detecting Textual Adversarial Examples through Randomized Substitution and Vote Xiaosen Wang Yifeng Xiong Kun He AAML 25 11 0 13 Sep 2021
Searching for an Effective Defender: Benchmarking Defense against Adversarial Word Substitution Zongyi Li Jianhan Xu Jiehang Zeng Linyang Li Xiaoqing Zheng Qi Zhang Kai-Wei Chang Cho-Jui Hsieh AAML 8 74 0 29 Aug 2021