Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge

Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge

29 February 2024

Maximilian Mozes

Mark Dras

Papers citing "Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge"

14 / 14 papers shown

Title
Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace Jinluan Yang Anke Tang Didi Zhu Zhengyu Chen Li Shen Leilei Gan MoMe AAML 124 6 0 17 Oct 2024
IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks Xuanli He Jun Wang Benjamin I. P. Rubinstein Trevor Cohn SILM 56 13 0 25 May 2023
BackdoorBench: A Comprehensive Benchmark of Backdoor Learning Baoyuan Wu Hongrui Chen Ruotong Wang Zihao Zhu Shaokui Wei Danni Yuan Chaoxiao Shen ELM AAML 81 144 0 25 Jun 2022
Fusing finetuned models for better pretraining Leshem Choshen Elad Venezian Noam Slonim Yoav Katz FedML AI4CE MoMe 112 94 0 06 Apr 2022
Anti-Backdoor Learning: Training Clean Models on Poisoned Data Yige Li X. Lyu Nodens Koren Lingjuan Lyu Yue Liu Xingjun Ma OnRL 70 334 0 22 Oct 2021
Finetuned Language Models Are Zero-Shot Learners Jason W. Wei Maarten Bosma Vincent Zhao Kelvin Guu Adams Wei Yu Brian Lester Nan Du Andrew M. Dai Quoc V. Le ALM UQCV 198 3,750 0 03 Sep 2021
Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning Linyang Li Demin Song Xiaonan Li Jiehang Zeng Ruotian Ma Xipeng Qiu 124 141 0 31 Aug 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 460 10,367 0 17 Jun 2021
Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word Substitution Fanchao Qi Yuan Yao Sophia Xu Zhiyuan Liu Maosong Sun SILM 62 130 0 11 Jun 2021
Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger Fanchao Qi Mukai Li Yangyi Chen Zhengyan Zhang Zhiyuan Liu Yasheng Wang Maosong Sun SILM 70 231 0 26 May 2021
Weight Poisoning Attacks on Pre-trained Models Keita Kurita Paul Michel Graham Neubig AAML SILM 134 451 0 14 Apr 2020
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 653 24,464 0 26 Jul 2019
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 1.1K 7,159 0 20 Apr 2018
BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain Tianyu Gu Brendan Dolan-Gavitt S. Garg SILM 122 1,772 0 22 Aug 2017