T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification

7 March 2021

Papers citing "T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification"

50 / 55 papers shown

Title
PEFTGuard: Detecting Backdoor Attacks Against Parameter-Efficient Fine-Tuning Zhen Sun Tianshuo Cong Yule Liu Chenhao Lin Xinlei He Rongmao Chen Xingshuo Han Xinyi Huang AAML 85 3 0 26 Nov 2024
Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges Qin Liu Wenjie Mo Terry Tong Jiashu Xu Fei Wang Chaowei Xiao Muhao Chen AAML 33 4 0 30 Sep 2024
Data-centric NLP Backdoor Defense from the Lens of Memorization Zhenting Wang Zhizhi Wang Mingyu Jin Mengnan Du Juan Zhai Shiqing Ma 31 3 0 21 Sep 2024
Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm Jaehan Kim Minkyoo Song S. Na Seungwon Shin AAML 33 0 0 21 Sep 2024
NoiseAttack: An Evasive Sample-Specific Multi-Targeted Backdoor Attack Through White Gaussian Noise Abdullah Arafat Miah Kaan Icer Resit Sendag Yu Bi AAML DiffM 30 1 0 03 Sep 2024
Exploiting the Vulnerability of Large Language Models via Defense-Aware Architectural Backdoor Abdullah Arafat Miah Yu Bi AAML SILM 32 0 0 03 Sep 2024
CLIBE: Detecting Dynamic Backdoors in Transformer-based NLP Models Rui Zeng Xi Chen Yuwen Pu Xuhong Zhang Tianyu Du Shouling Ji 41 2 0 02 Sep 2024
Rethinking Backdoor Detection Evaluation for Language Models Jun Yan Wenjie Jacky Mo Xiang Ren Robin Jia ELM 46 1 0 31 Aug 2024
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models Yi Zeng Weiyu Sun Tran Ngoc Huynh Dawn Song Bo Li Ruoxi Jia AAML LLMSV 42 18 0 24 Jun 2024
Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey Shang Wang Tianqing Zhu Bo Liu Ming Ding Xu Guo Dayong Ye Wanlei Zhou Philip S. Yu PILM 67 17 0 12 Jun 2024
PromptFix: Few-shot Backdoor Removal via Adversarial Prompt Tuning Tianrong Zhang Zhaohan Xi Ting Wang Prasenjit Mitra Jinghui Chen AAML SILM 27 2 0 06 Jun 2024
TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models Yuzhou Nie Yanting Wang Jinyuan Jia Michael J. De Lucia Nathaniel D. Bastian Wenbo Guo Dawn Song SILM AAML 36 5 0 27 May 2024
BadActs: A Universal Backdoor Defense in the Activation Space Biao Yi Sishuo Chen Yiming Li Tong Li Baolei Zhang Zheli Liu AAML 45 5 0 18 May 2024
Task-Agnostic Detector for Insertion-Based Backdoor Attacks Weimin Lyu Xiao Lin Songzhu Zheng Lu Pang Haibin Ling Susmit Jha Chao Chen 45 25 0 25 Mar 2024
Acquiring Clean Language Models from Backdoor Poisoned Datasets by Downscaling Frequency Space Zongru Wu Zhuosheng Zhang Pengzhou Cheng Gongshen Liu AAML 44 4 0 19 Feb 2024
PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented Generation of Large Language Models Wei Zou Runpeng Geng Binghui Wang Jinyuan Jia SILM 36 16 1 12 Feb 2024
Punctuation Matters! Stealthy Backdoor Attack for Language Models Xuan Sheng Zhicheng Li Zhaoyang Han Xiangmao Chang Piji Li 35 3 0 26 Dec 2023
The Philosopher's Stone: Trojaning Plugins of Large Language Models Tian Dong Minhui Xue Guoxing Chen Rayne Holland Shaofeng Li Yan Meng Zhen Liu Haojin Zhu AAML 20 9 0 01 Dec 2023
TextGuard: Provable Defense against Backdoor Attacks on Text Classification Hengzhi Pei Jinyuan Jia Wenbo Guo Bo-wen Li Dawn Song SILM 21 9 0 19 Nov 2023
Attention-Enhancing Backdoor Attacks Against BERT-based Models Weimin Lyu Songzhu Zheng Lu Pang Haibin Ling Chao Chen 27 34 0 23 Oct 2023
Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review Pengzhou Cheng Zongru Wu Wei Du Haodong Zhao Wei Lu Gongshen Liu SILM AAML 29 17 0 12 Sep 2023
LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors Chengkun Wei Wenlong Meng Zhikun Zhang M. Chen Ming-Hui Zhao Wenjing Fang Lei Wang Zihui Zhang Wenzhi Chen AAML 18 8 0 26 Aug 2023
Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities Maximilian Mozes Xuanli He Bennett Kleinberg Lewis D. Griffin 39 77 0 24 Aug 2023
TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal Backdoored Models Indranil Sur Karan Sikka Matthew Walmer K. Koneripalli Anirban Roy Xiaoyu Lin Ajay Divakaran Susmit Jha 24 8 0 07 Aug 2023
ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned Samples in NLP Lu Yan Zhuo Zhang Guanhong Tao Kaiyuan Zhang Xuan Chen Guangyu Shen Xiangyu Zhang AAML SILM 54 16 0 04 Aug 2023
Interpretability and Transparency-Driven Detection and Transformation of Textual Adversarial Examples (IT-DT) Bushra Sabir Muhammad Ali Babar Sharif Abuadbba SILM 34 8 0 03 Jul 2023
Impacts and Risk of Generative AI Technology on Cyber Defense Subash Neupane Ivan A. Fernandez Sudip Mittal Shahram Rahimi 21 16 0 22 Jun 2023
NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models Kai Mei Zheng Li Zhenting Wang Yang Zhang Shiqing Ma AAML SILM 37 48 0 28 May 2023
Backdooring Neural Code Search Dongrui Liu Yuchen Chen Guanhong Tao Chunrong Fang Xiangyu Zhang Quanjun Zhang Bin Luo SILM 22 16 0 27 May 2023
From Shortcuts to Triggers: Backdoor Defense with Denoised PoE Qin Liu Fei Wang Chaowei Xiao Muhao Chen AAML 34 21 0 24 May 2023
FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases Chong Fu Xuhong Zhang S. Ji Ting Wang Peng Lin Yanghe Feng Jianwei Yin AAML 33 10 0 28 Feb 2023
Backdoor Learning for NLP: Recent Advances, Challenges, and Future Research Directions Marwan Omar SILM AAML 33 20 0 14 Feb 2023
SoK: A Systematic Evaluation of Backdoor Trigger Characteristics in Image Classification Gorka Abad Jing Xu Stefanos Koffas Behrad Tajalli S. Picek Mauro Conti AAML 63 5 0 03 Feb 2023
BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing Jiali Wei Ming Fan Wenjing Jiao Wuxia Jin Ting Liu AAML 29 10 0 25 Jan 2023
TrojanPuzzle: Covertly Poisoning Code-Suggestion Models H. Aghakhani Wei Dai Andre Manoel Xavier Fernandes Anant Kharkar Christopher Kruegel Giovanni Vigna David E. Evans B. Zorn Robert Sim SILM 21 33 0 06 Jan 2023
"Real Attackers Don't Compute Gradients": Bridging the Gap Between Adversarial ML Research and Practice Giovanni Apruzzese Hyrum S. Anderson Savino Dambra D. Freeman Fabio Pierazzi Kevin A. Roundy AAML 31 75 0 29 Dec 2022
A Survey on Backdoor Attack and Defense in Natural Language Processing Xuan Sheng Zhaoyang Han Piji Li Xiangmao Chang SILM 19 19 0 22 Nov 2022
Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis Lukas Struppek Dominik Hintersdorf Kristian Kersting SILM 22 36 0 04 Nov 2022
Expose Backdoors on the Way: A Feature-Based Efficient Defense against Textual Backdoor Attacks Sishuo Chen Wenkai Yang Zhiyuan Zhang Xiaohan Bi Xu Sun SILM AAML 29 23 0 14 Oct 2022
The "Beatrix'' Resurrections: Robust Backdoor Detection via Gram Matrices Wanlun Ma Derui Wang Ruoxi Sun Minhui Xue S. Wen Yang Xiang AAML 11 80 0 23 Sep 2022
BadRes: Reveal the Backdoors through Residual Connection Min He Tianyu Chen Haoyi Zhou Shanghang Zhang Jianxin Li 22 0 0 15 Sep 2022
Attention Hijacking in Trojan Transformers Weimin Lyu Songzhu Zheng Teng Ma Haibin Ling Chao Chen 27 6 0 09 Aug 2022
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks Ganqu Cui Lifan Yuan Bingxiang He Yangyi Chen Zhiyuan Liu Maosong Sun AAML ELM SILM 24 68 0 17 Jun 2022
BITE: Textual Backdoor Attacks with Iterative Trigger Injection Jun Yan Vansh Gupta Xiang Ren SILM 23 46 0 25 May 2022
A Study of the Attention Abnormality in Trojaned BERTs Weimin Lyu Songzhu Zheng Teng Ma Chao Chen 51 56 0 13 May 2022
On Robust Prefix-Tuning for Text Classification Zonghan Yang Yang Liu VLM 13 20 0 19 Mar 2022
Constrained Optimization with Dynamic Bound-scaling for Effective NLPBackdoor Defense Guangyu Shen Yingqi Liu Guanhong Tao Qiuling Xu Zhuo Zhang Shengwei An Shiqing Ma X. Zhang AAML 13 33 0 11 Feb 2022
Jigsaw Puzzle: Selective Backdoor Attack to Subvert Malware Classifiers Limin Yang Zhi Chen Jacopo Cortellazzi Feargus Pendlebury Kevin Tu Fabio Pierazzi Lorenzo Cavallaro Gang Wang AAML 18 36 0 11 Feb 2022
Few-shot Backdoor Defense Using Shapley Estimation Jiyang Guan Zhuozhuo Tu Ran He Dacheng Tao AAML 26 53 0 30 Dec 2021
An Overview of Backdoor Attacks Against Deep Neural Networks and Possible Defences Wei Guo B. Tondi Mauro Barni AAML 24 65 0 16 Nov 2021