v1v2v3 (latest)

Masked Language Model Based Textual Adversarial Example Detection

18 April 2023

ArXiv (abs)PDF HTML Github (1★)

Papers citing "Masked Language Model Based Textual Adversarial Example Detection"

40 / 40 papers shown

Title
Textual Manifold-based Defense Against Natural Language Adversarial Examples D. M. Nguyen Anh Tuan Luu AAML 76 17 0 05 Nov 2022
Rethinking Textual Adversarial Defense for Pre-trained Language Models Jiayi Wang Rongzhou Bao Zhuosheng Zhang Hai Zhao AAML SILM 56 11 0 21 Jul 2022
Evaluating Membership Inference Through Adversarial Robustness Zhaoxi Zhang L. Zhang Xufei Zheng Bilal Hussain Abbasi Shengshan Hu AAML 85 16 0 14 May 2022
"That Is a Suspicious Reaction!": Interpreting Logits Variation to Detect NLP Adversarial Attacks Edoardo Mosca Shreyash Agarwal Javier Rando Georg Groh AAML 90 31 0 10 Apr 2022
Membership Inference Attacks From First Principles Nicholas Carlini Steve Chien Milad Nasr Shuang Song Andreas Terzis Florian Tramèr MIACV MIALM 91 709 0 07 Dec 2021
Detecting Textual Adversarial Examples through Randomized Substitution and Vote Xiaosen Wang Yifeng Xiong Kun He AAML 52 11 0 13 Sep 2021
A Strong Baseline for Query Efficient Attacks in a Black Box Setting Rishabh Maheshwary Saket Maheshwary Vikram Pudi AAML 52 30 0 10 Sep 2021
Towards Robustness Against Natural Language Word Substitutions Xinshuai Dong Anh Tuan Luu Rongrong Ji Hong Liu SILM AAML 169 115 0 28 Jul 2021
The Dimpled Manifold Model of Adversarial Examples in Machine Learning A. Shamir Odelia Melamed Oriel BenShmuel AAML 81 50 0 18 Jun 2021
Unsupervised Out-of-Domain Detection via Pre-trained Transformers Keyang Xu Zhaolin Ren Shikun Zhang Yihao Feng Caiming Xiong ViT 72 41 0 02 Jun 2021
Self-Supervised Adversarial Example Detection by Disentangled Representation Zhaoxi Zhang L. Zhang Xufei Zheng Jinyu Tian Jiantao Zhou AAML DRL 60 9 0 08 May 2021
Generating Natural Language Attacks in a Hard Label Black Box Setting Rishabh Maheshwary Saket Maheshwary Vikram Pudi AAML 74 106 0 29 Dec 2020
CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation Tianlu Wang Xuezhi Wang Yao Qin Ben Packer Kang Li Jilin Chen Alex Beutel Ed H. Chi SILM 79 84 0 05 Oct 2020
SSMBA: Self-Supervised Manifold Based Data Augmentation for Improving Out-of-Domain Robustness Nathan Ng Kyunghyun Cho Marzyeh Ghassemi 83 146 0 21 Sep 2020
Contextualized Perturbation for Textual Adversarial Attack Dianqi Li Yizhe Zhang Hao Peng Liqun Chen Chris Brockett Ming-Ting Sun Bill Dolan AAML SILM 179 235 0 16 Sep 2020
Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood Ensemble Yi Zhou Xiaoqing Zheng Cho-Jui Hsieh Kai-Wei Chang Xuanjing Huang SILM 103 48 0 20 Jun 2020
SAFER: A Structure-free Approach for Certified Robustness to Adversarial Word Substitutions Mao Ye Chengyue Gong Qiang Liu AAML 73 97 0 29 May 2020
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks Suchin Gururangan Ana Marasović Swabha Swayamdipta Kyle Lo Iz Beltagy Doug Downey Noah A. Smith VLM AI4CE CLL 172 2,444 0 23 Apr 2020
Pretrained Transformers Improve Out-of-Distribution Robustness Dan Hendrycks Xiaoyuan Liu Eric Wallace Adam Dziedzic R. Krishnan Basel Alomair OOD 206 435 0 13 Apr 2020
Frequency-Guided Word Substitutions for Detecting Textual Adversarial Examples Maximilian Mozes Pontus Stenetorp Bennett Kleinberg Lewis D. Griffin AAML 175 103 0 13 Apr 2020
BAE: BERT-based Adversarial Examples for Text Classification Siddhant Garg Goutham Ramakrishnan AAML SILM 211 557 0 04 Apr 2020
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations Zhenzhong Lan Mingda Chen Sebastian Goodman Kevin Gimpel Piyush Sharma Radu Soricut SSL AIMat 379 6,472 0 26 Sep 2019
Natural Language Adversarial Defense through Synonym Encoding Xiaosen Wang Hao Jin Yichen Yang Kun He AAML 85 64 0 15 Sep 2019
Learning to Discriminate Perturbations for Blocking Adversarial Attacks in Text Classification Yichao Zhou Jyun-Yu Jiang Kai-Wei Chang Wei Wang AAML 63 119 0 06 Sep 2019
Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment Di Jin Zhijing Jin Qiufeng Wang Peter Szolovits SILM AAML 209 1,090 0 27 Jul 2019
Combating Adversarial Misspellings with Robust Word Recognition Danish Pruthi Bhuwan Dhingra Zachary Chase Lipton 191 307 0 27 May 2019
Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems Steffen Eger Gözde Gül Sahin Andreas Rucklé Ji-Ung Lee Claudia Schulz Mohsen Mesgar Krishnkant Swarnkar Edwin Simpson Iryna Gurevych AAML 122 163 0 27 Mar 2019
TextBugger: Generating Adversarial Text Against Real-world Applications Jinfeng Li S. Ji Tianyu Du Bo Li Ting Wang SILM AAML 216 747 0 13 Dec 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.8K 95,324 0 11 Oct 2018
Generating Natural Language Adversarial Examples M. Alzantot Yash Sharma Ahmed Elgohary Bo-Jhang Ho Mani B. Srivastava Kai-Wei Chang AAML 417 933 0 21 Apr 2018
Adversarial Example Generation with Syntactically Controlled Paraphrase Networks Mohit Iyyer John Wieting Kevin Gimpel Luke Zettlemoyer AAML GAN 353 721 0 17 Apr 2018
Black-box Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers Ji Gao Jack Lanchantin M. Soffa Yanjun Qi AAML 146 725 0 13 Jan 2018
Generating Natural Adversarial Examples Zhengli Zhao Dheeru Dua Sameer Singh GAN AAML 192 601 0 31 Oct 2017
MagNet: a Two-Pronged Defense against Adversarial Examples Dongyu Meng Hao Chen AAML 56 1,209 0 25 May 2017
Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods Nicholas Carlini D. Wagner AAML 131 1,867 0 20 May 2017
A Boundary Tilting Persepective on the Phenomenon of Adversarial Examples T. Tanay Lewis D. Griffin AAML 103 272 0 27 Aug 2016
InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets Xi Chen Yan Duan Rein Houthooft John Schulman Ilya Sutskever Pieter Abbeel GAN 168 4,240 0 12 Jun 2016
Character-level Convolutional Networks for Text Classification Xiang Zhang Jiaqi Zhao Yann LeCun 270 6,137 0 04 Sep 2015
Explaining and Harnessing Adversarial Examples Ian Goodfellow Jonathon Shlens Christian Szegedy AAML GAN 284 19,145 0 20 Dec 2014
Intriguing properties of neural networks Christian Szegedy Wojciech Zaremba Ilya Sutskever Joan Bruna D. Erhan Ian Goodfellow Rob Fergus AAML 297 14,978 1 21 Dec 2013