Data-centric NLP Backdoor Defense from the Lens of Memorization

21 September 2024

Zhenting Wang

Zhizhi Wang

Mengnan Du

Papers citing "Data-centric NLP Backdoor Defense from the Lens of Memorization"

34 / 34 papers shown

Title
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents H. Zhang Jingyuan Huang Kai Mei Yifei Yao Zhenting Wang Chenlu Zhan Hongwei Wang Yongfeng Zhang AAML LLMAG ELM 167 37 0 03 Oct 2024
NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models Kai Mei Zheng Li Zhenting Wang Yang Zhang Shiqing Ma AAML SILM 72 50 0 28 May 2023
Robust Contrastive Language-Image Pre-training against Data Poisoning and Backdoor Attacks Wenhan Yang Jingdong Gao Baharan Mirzasoleiman VLM 159 20 0 13 Mar 2023
Rethinking the Reverse-engineering of Trojan Triggers Zhenting Wang Kai Mei Hailun Ding Juan Zhai Shiqing Ma 64 45 0 27 Oct 2022
Measuring Forgetting of Memorized Training Examples Matthew Jagielski Om Thakkar Florian Tramèr Daphne Ippolito Katherine Lee ... Eric Wallace Shuang Song Abhradeep Thakurta Nicolas Papernot Chiyuan Zhang TDI 126 110 0 30 Jun 2022
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks Ganqu Cui Lifan Yuan Bingxiang He Yangyi Chen Zhiyuan Liu Maosong Sun AAML ELM SILM 50 72 0 17 Jun 2022
BppAttack: Stealthy and Efficient Trojan Attacks against Deep Neural Networks via Image Quantization and Contrastive Adversarial Learning Zhenting Wang Juan Zhai Shiqing Ma AAML 163 100 0 26 May 2022
WeDef: Weakly Supervised Backdoor Defense for Text Classification Lesheng Jin Zihan Wang Jingbo Shang AAML 80 15 0 24 May 2022
Backdoor Defense via Decoupling the Training Process Kunzhe Huang Yiming Li Baoyuan Wu Zhan Qin Kui Ren AAML FedML 56 193 0 05 Feb 2022
Anti-Backdoor Learning: Training Clean Models on Poisoned Data Yige Li X. Lyu Nodens Koren Lingjuan Lyu Yue Liu Xingjun Ma OnRL 78 334 0 22 Oct 2021
Excess Capacity and Backdoor Poisoning N. Manoj Avrim Blum SILM AAML 59 24 0 02 Sep 2021
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 360 634 0 14 Jul 2021
Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word Substitution Fanchao Qi Yuan Yao Sophia Xu Zhiyuan Liu Maosong Sun SILM 62 130 0 11 Jun 2021
Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger Fanchao Qi Mukai Li Yangyi Chen Zhengyan Zhang Zhiyuan Liu Yasheng Wang Maosong Sun SILM 70 231 0 26 May 2021
Hidden Backdoors in Human-Centric Language Models Shaofeng Li Hui Liu Tian Dong Benjamin Zi Hao Zhao Minhui Xue Haojin Zhu Jialiang Lu SILM 97 153 0 01 May 2021
SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics J. Hayase Weihao Kong Raghav Somani Sewoong Oh AAML 53 154 0 22 Apr 2021
Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability of the Embedding Layers in NLP Models Wenkai Yang Lei Li Zhiyuan Zhang Xuancheng Ren Xu Sun Bin He SILM 89 153 0 29 Mar 2021
T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification A. Azizi I. A. Tahmid Asim Waheed Neal Mangaokar Jiameng Pu M. Javed Chandan K. Reddy Bimal Viswanath AAML 65 80 0 07 Mar 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown Basel Alomair Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 497 1,943 0 14 Dec 2020
Fast and Accurate Neural CRF Constituency Parsing Yu Zhang Houquan Zhou Zhenghua Li 58 91 0 09 Aug 2020
What Neural Networks Memorize and Why: Discovering the Long Tail via Influence Estimation Vitaly Feldman Chiyuan Zhang TDI 193 464 0 09 Aug 2020
Weight Poisoning Attacks on Pre-trained Models Keita Kurita Paul Michel Graham Neubig AAML SILM 134 453 0 14 Apr 2020
Label-Consistent Backdoor Attacks Alexander Turner Dimitris Tsipras Aleksander Madry AAML 68 389 0 05 Dec 2019
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter Victor Sanh Lysandre Debut Julien Chaumond Thomas Wolf 234 7,520 0 02 Oct 2019
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations Zhenzhong Lan Mingda Chen Sebastian Goodman Kevin Gimpel Piyush Sharma Radu Soricut SSL AIMat 371 6,463 0 26 Sep 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 665 24,528 0 26 Jul 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.8K 95,114 0 11 Oct 2018
Adversarial Example Generation with Syntactically Controlled Paraphrase Networks Mohit Iyyer John Wieting Kevin Gimpel Luke Zettlemoyer AAML GAN 341 719 0 17 Apr 2018
The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks Nicholas Carlini Chang-rui Liu Ulfar Erlingsson Jernej Kos Basel Alomair 144 1,143 0 22 Feb 2018
Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning Xinyun Chen Chang-rui Liu Yue Liu Kimberly Lu Basel Alomair AAML SILM 143 1,840 0 15 Dec 2017
Neural Trojans Yuntao Liu Yang Xie Ankur Srivastava AAML 51 357 0 03 Oct 2017
BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain Tianyu Gu Brendan Dolan-Gavitt S. Garg SILM 127 1,772 0 22 Aug 2017
A Closer Look at Memorization in Deep Networks Devansh Arpit Stanislaw Jastrzebski Nicolas Ballas David M. Krueger Emmanuel Bengio ... Tegan Maharaj Asja Fischer Aaron Courville Yoshua Bengio Simon Lacoste-Julien TDI 125 1,823 0 16 Jun 2017
Membership Inference Attacks against Machine Learning Models Reza Shokri M. Stronati Congzheng Song Vitaly Shmatikov SLR MIALM MIACV 263 4,152 0 18 Oct 2016