Expose Backdoors on the Way: A Feature-Based Efficient Defense against
Textual Backdoor Attacks

Expose Backdoors on the Way: A Feature-Based Efficient Defense against Textual Backdoor Attacks

14 October 2022

Papers citing "Expose Backdoors on the Way: A Feature-Based Efficient Defense against Textual Backdoor Attacks"

10 / 10 papers shown

Title
A Chaos Driven Metric for Backdoor Attack Detection Hema Karnam Surendrababu Nithin Nagaraj AAML 38 0 0 06 May 2025
Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents Wenkai Yang Xiaohan Bi Yankai Lin Sishuo Chen Jie Zhou Xu Sun LLMAG AAML 44 53 0 17 Feb 2024
Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots Ruixiang Tang Jiayi Yuan Yiming Li Zirui Liu Rui Chen Xia Hu AAML 36 13 0 28 Oct 2023
Mitigating Backdoor Poisoning Attacks through the Lens of Spurious Correlation Xuanli He Qiongkai Xu Jun Wang Benjamin I. P. Rubinstein Trevor Cohn AAML 32 18 0 19 May 2023
A Study of the Attention Abnormality in Trojaned BERTs Weimin Lyu Songzhu Zheng Teng Ma Chao Chen 51 56 0 13 May 2022
Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer Fanchao Qi Yangyi Chen Xurui Zhang Mukai Li Zhiyuan Liu Maosong Sun AAML SILM 82 175 0 14 Oct 2021
Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain Detection Alexander Podolskiy Dmitry Lipin A. Bout Ekaterina Artemova Irina Piontkovskaya OODD 95 82 0 11 Jan 2021
Mitigating backdoor attacks in LSTM-based Text Classification Systems by Backdoor Keyword Identification Chuanshuai Chen Jiazhu Dai SILM 55 126 0 11 Jul 2020
Pre-trained Models for Natural Language Processing: A Survey Xipeng Qiu Tianxiang Sun Yige Xu Yunfan Shao Ning Dai Xuanjing Huang LM&MA VLM 243 1,452 0 18 Mar 2020
SentiNet: Detecting Localized Universal Attacks Against Deep Learning Systems Edward Chou Florian Tramèr Giancarlo Pellegrino AAML 168 287 0 02 Dec 2018