Weight Poisoning Attacks on Pre-trained Models

14 April 2020

Graham Neubig

Papers citing "Weight Poisoning Attacks on Pre-trained Models"

50 / 106 papers shown

Title
UPTON: Preventing Authorship Leakage from Public Text Release via Data Poisoning Ziyao Wang Thai Le Dongwon Lee 36 1 0 17 Nov 2022
MSDT: Masked Language Model Scoring Defense in Text Domain Jaechul Roh Minhao Cheng Yajun Fang AAML 23 1 0 10 Nov 2022
Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis Lukas Struppek Dominik Hintersdorf Kristian Kersting SILM 22 36 0 04 Nov 2022
Dormant Neural Trojans Feisi Fu Panagiota Kiourti Wenchao Li AAML 30 0 0 02 Nov 2022
Poison Attack and Defense on Deep Source Code Processing Models Jia Li Zhuo Li Huangzhao Zhang Ge Li Zhi Jin Xing Hu Xin Xia AAML 48 16 0 31 Oct 2022
Apple of Sodom: Hidden Backdoors in Superior Sentence Embeddings via Contrastive Learning Xiaoyi Chen Baisong Xin Shengfang Zhai Shiqing Ma Qingni Shen Zhonghai Wu SILM 19 2 0 20 Oct 2022
Why Should Adversarial Perturbations be Imperceptible? Rethink the Research Paradigm in Adversarial NLP Yangyi Chen Hongcheng Gao Ganqu Cui Fanchao Qi Longtao Huang Zhiyuan Liu Maosong Sun SILM 27 45 0 19 Oct 2022
Marksman Backdoor: Backdoor Attacks with Arbitrary Target Class Khoa D. Doan Yingjie Lao Ping Li 34 40 0 17 Oct 2022
Detecting Backdoors in Deep Text Classifiers Youyan Guo Jun Wang Trevor Cohn SILM 42 1 0 11 Oct 2022
BAFFLE: Hiding Backdoors in Offline Reinforcement Learning Datasets Chen Gong Zhou Yang Yunru Bai Junda He Jieke Shi ... Arunesh Sinha Bowen Xu Xinwen Hou David Lo Guoliang Fan AAML OffRL 26 7 0 07 Oct 2022
CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks Xuanli He Qiongkai Xu Yi Zeng Lingjuan Lyu Fangzhao Wu Jiwei Li R. Jia WaLM 188 72 0 19 Sep 2022
PromptAttack: Prompt-based Attack for Language Models via Gradient Search Yundi Shi Piji Li Changchun Yin Zhaoyang Han Zhe Liu Zhe Liu AAML SILM 32 19 0 05 Sep 2022
Shortcut Learning of Large Language Models in Natural Language Understanding Mengnan Du Fengxiang He Na Zou Dacheng Tao Xia Hu KELM OffRL 42 84 0 25 Aug 2022
Catch Me If You Can: Deceiving Stance Detection and Geotagging Models to Protect Privacy of Individuals on Twitter Dilara Doğan Bahadir Altun Muhammed Said Zengin Mucahid Kutlu Tamer Elsayed 26 2 0 23 Jul 2022
DECK: Model Hardening for Defending Pervasive Backdoors Guanhong Tao Yingqi Liu Shuyang Cheng Shengwei An Zhuo Zhang Qiuling Xu Guangyu Shen Xiangyu Zhang AAML 26 7 0 18 Jun 2022
Is Multi-Modal Necessarily Better? Robustness Evaluation of Multi-modal Fake News Detection Jinyin Chen Chengyu Jia Haibin Zheng Ruoxi Chen Chenbo Fu AAML 22 10 0 17 Jun 2022
BadDet: Backdoor Attacks on Object Detection Shih-Han Chan Yinpeng Dong Junyi Zhu Xiaolu Zhang Jun Zhou AAML 27 56 0 28 May 2022
WeDef: Weakly Supervised Backdoor Defense for Text Classification Lesheng Jin Zihan Wang Jingbo Shang AAML 32 14 0 24 May 2022
Backdoor Attacks in Federated Learning by Rare Embeddings and Gradient Ensembling Kiyoon Yoo Nojun Kwak SILM AAML FedML 25 19 0 29 Apr 2022
ET-BERT: A Contextualized Datagram Representation with Pre-training Transformers for Encrypted Traffic Classification Xinjie Lin G. Xiong Gaopeng Gou Zhen Li Junzheng Shi Jiahao Yu 17 235 0 13 Feb 2022
Constrained Optimization with Dynamic Bound-scaling for Effective NLPBackdoor Defense Guangyu Shen Yingqi Liu Guanhong Tao Qiuling Xu Zhuo Zhang Shengwei An Shiqing Ma Xinming Zhang AAML 21 34 0 11 Feb 2022
Neighboring Backdoor Attacks on Graph Convolutional Network Liang Chen Qibiao Peng Jintang Li Yang Liu Jiawei Chen Yong Li Zibin Zheng GNN AAML 32 11 0 17 Jan 2022
Security for Machine Learning-based Software Systems: a survey of threats, practices and challenges Huaming Chen Muhammad Ali Babar AAML 42 21 0 12 Jan 2022
Measure and Improve Robustness in NLP Models: A Survey Xuezhi Wang Haohan Wang Diyi Yang 139 130 0 15 Dec 2021
Spinning Language Models: Risks of Propaganda-As-A-Service and Countermeasures Eugene Bagdasaryan Vitaly Shmatikov SILM AAML 33 78 0 09 Dec 2021
A General Framework for Defending Against Backdoor Attacks via Influence Graph Xiaofei Sun Jiwei Li Xiaoya Li Ziyao Wang Tianwei Zhang Han Qiu Fei Wu Chun Fan AAML TDI 24 5 0 29 Nov 2021
Towards Practical Deployment-Stage Backdoor Attack on Deep Neural Networks Xiangyu Qi Tinghao Xie Ruizhe Pan Jifeng Zhu Yong-Liang Yang Kai Bu AAML 33 57 0 25 Nov 2021
Triggerless Backdoor Attack for NLP Tasks with Clean Labels Leilei Gan Jiwei Li Tianwei Zhang Xiaoya Li Yuxian Meng Fei Wu Yi Yang Shangwei Guo Chun Fan AAML SILM 27 74 0 15 Nov 2021
Backdoor Pre-trained Models Can Transfer to All Lujia Shen S. Ji Xuhong Zhang Jinfeng Li Jing Chen Jie Shi Chengfang Fang Jianwei Yin Ting Wang AAML SILM 31 120 0 30 Oct 2021
Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer Fanchao Qi Yangyi Chen Xurui Zhang Mukai Li Zhiyuan Liu Maosong Sun AAML SILM 82 175 0 14 Oct 2021
BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation Models Kangjie Chen Yuxian Meng Xiaofei Sun Shangwei Guo Tianwei Zhang Jiwei Li Chun Fan SILM 34 106 0 06 Oct 2021
Adversarial Parameter Defense by Multi-Step Risk Minimization Zhiyuan Zhang Ruixuan Luo Xuancheng Ren Qi Su Liangyou Li Xu Sun AAML 25 6 0 07 Sep 2021
How to Inject Backdoors with Better Consistency: Logit Anchoring on Clean Data Zhiyuan Zhang Lingjuan Lyu Weiqiang Wang Lichao Sun Xu Sun 21 35 0 03 Sep 2021
Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning Linyang Li Demin Song Xiaonan Li Jiehang Zeng Ruotian Ma Xipeng Qiu 27 135 0 31 Aug 2021
The Devil is in the GAN: Backdoor Attacks and Defenses in Deep Generative Models Ambrish Rawat Killian Levacher M. Sinn AAML 30 11 0 03 Aug 2021
Subnet Replacement: Deployment-stage backdoor attack against deep neural networks in gray-box setting Xiangyu Qi Jifeng Zhu Chulin Xie Yong-Liang Yang AAML 66 35 0 15 Jul 2021
Poisoning Deep Reinforcement Learning Agents with In-Distribution Triggers C. Ashcraft Kiran Karra 23 22 0 14 Jun 2021
Topological Detection of Trojaned Neural Networks Songzhu Zheng Yikai Zhang H. Wagner Mayank Goswami Chao Chen AAML 29 40 0 11 Jun 2021
Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word Substitution Fanchao Qi Yuan Yao Sophia Xu Zhiyuan Liu Maosong Sun SILM 24 126 0 11 Jun 2021
Defending Against Backdoor Attacks in Natural Language Generation Xiaofei Sun Xiaoya Li Yuxian Meng Xiang Ao Fei Wu Jiwei Li Tianwei Zhang AAML SILM 31 47 0 03 Jun 2021
Hidden Backdoors in Human-Centric Language Models Shaofeng Li Hui Liu Tian Dong Benjamin Zi Hao Zhao Minhui Xue Haojin Zhu Jialiang Lu SILM 35 147 0 01 May 2021
Dodrio: Exploring Transformer Models with Interactive Visualization Zijie J. Wang Robert Turko Duen Horng Chau 34 35 0 26 Mar 2021
EX-RAY: Distinguishing Injected Backdoor from Natural Features in Neural Networks by Examining Differential Feature Symmetry Yingqi Liu Guangyu Shen Guanhong Tao Zhenting Wang Shiqing Ma Xinming Zhang AAML 30 8 0 16 Mar 2021
Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU Models Mengnan Du Varun Manjunatha R. Jain Ruchi Deshpande Franck Dernoncourt Jiuxiang Gu Tong Sun Xia Hu 57 105 0 11 Mar 2021
TrojanZoo: Towards Unified, Holistic, and Practical Evaluation of Neural Backdoors Ren Pang Zheng-Wei Zhang Xiangshan Gao Zhaohan Xi S. Ji Peng Cheng Xiapu Luo Ting Wang AAML 29 31 0 16 Dec 2020
ONION: A Simple and Effective Defense Against Textual Backdoor Attacks Fanchao Qi Yangyi Chen Mukai Li Yuan Yao Zhiyuan Liu Maosong Sun AAML 45 266 0 20 Nov 2020
Towards Ethics by Design in Online Abusive Content Detection S. Kiritchenko I. Nejadgholi 21 13 0 28 Oct 2020
Concealed Data Poisoning Attacks on NLP Models Eric Wallace Tony Zhao Shi Feng Sameer Singh SILM 19 18 0 23 Oct 2020
Poison Attacks against Text Datasets with Conditional Adversarially Regularized Autoencoder Alvin Chan Yi Tay Yew-Soon Ong Aston Zhang SILM 23 56 0 06 Oct 2020
Can Adversarial Weight Perturbations Inject Neural Backdoors? Siddhant Garg Adarsh Kumar Vibhor Goel Yingyu Liang AAML 48 86 0 04 Aug 2020