BadActs: A Universal Backdoor Defense in the Activation Space

18 May 2024

Papers citing "BadActs: A Universal Backdoor Defense in the Activation Space"

9 / 9 papers shown

Title
The Ultimate Cookbook for Invisible Poison: Crafting Subtle Clean-Label Text Backdoors with Style Attributes Wencong You Daniel Lowd 36 0 0 24 Apr 2025
Defending against Insertion-based Textual Backdoor Attacks via Attribution Jiazhao Li Zhuofeng Wu Ming-Yu Liu Chaowei Xiao V. Vydiswaran 40 23 0 03 May 2023
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 92 124 0 01 May 2023
TrojText: Test-time Invisible Textual Trojan Insertion Qiang Lou Ye Liu Bo Feng 37 23 0 03 Mar 2023
MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary Backdoor Pattern Types Using a Maximum Margin Statistic Hang Wang Zhen Xiang David J. Miller G. Kesidis AAML 32 41 0 13 May 2022
A Study of the Attention Abnormality in Trojaned BERTs Weimin Lyu Songzhu Zheng Teng Ma Chao Chen 51 56 0 13 May 2022
Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer Fanchao Qi Yangyi Chen Xurui Zhang Mukai Li Zhiyuan Liu Maosong Sun AAML SILM 82 175 0 14 Oct 2021
Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain Detection Alexander Podolskiy Dmitry Lipin A. Bout Ekaterina Artemova Irina Piontkovskaya OODD 95 82 0 11 Jan 2021
Mitigating backdoor attacks in LSTM-based Text Classification Systems by Backdoor Keyword Identification Chuanshuai Chen Jiazhu Dai SILM 55 126 0 11 Jul 2020