Defending Against Backdoor Attacks in Natural Language Generation

3 June 2021

Jiwei Li

Papers citing "Defending Against Backdoor Attacks in Natural Language Generation"

31 / 31 papers shown

Title
Defending Code Language Models against Backdoor Attacks with Deceptive Cross-Entropy Loss Guang Yang Yu Zhou Xiang Chen Xiangyu Zhang Terry Yue Zhuo David Lo Taolue Chen AAML 52 4 0 20 May 2025
Exploring Backdoor Attack and Defense for LLM-empowered Recommendations Liangbo Ning Wenqi Fan Qing Li AAML SILM 48 0 0 15 Apr 2025
BadJudge: Backdoor Vulnerabilities of LLM-as-a-Judge Terry Tong Fei-Yue Wang Zhe Zhao M. Chen AAML ELM 37 1 0 01 Mar 2025
Neuroplasticity and Corruption in Model Mechanisms: A Case Study Of Indirect Object Identification Vishnu Kabir Chhabra Ding Zhu Mohammad Mahdi Khalili 37 2 0 27 Feb 2025
Fisher Information guided Purification against Backdoor Attacks Nazmul Karim Abdullah Al Arafat Adnan Siraj Rakin Zhishan Guo Nazanin Rahnavard AAML 51 1 0 01 Sep 2024
The Dark Side of Human Feedback: Poisoning Large Language Models via User Inputs Bocheng Chen Hanqing Guo Guangjing Wang Yuanda Wang Qiben Yan AAML 37 4 0 01 Sep 2024
Augmented Neural Fine-Tuning for Efficient Backdoor Purification Nazmul Karim Abdullah Al Arafat Umar Khalid Zhishan Guo Nazanin Rahnavard AAML 40 0 0 14 Jul 2024
Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers Terry Tong Jiashu Xu Qin Liu Muhao Chen AAML SILM 45 1 0 04 Jul 2024
BadActs: A Universal Backdoor Defense in the Activation Space Biao Yi Sishuo Chen Yiming Li Tong Li Baolei Zhang Zheli Liu AAML 40 5 0 18 May 2024
Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data Tim Baumgärtner Yang Gao Dana Alon Donald Metzler AAML 25 18 0 08 Apr 2024
Backdoor Attack on Multilingual Machine Translation Jun Wang Qiongkai Xu Xuanli He Benjamin I. P. Rubinstein Trevor Cohn 26 5 0 03 Apr 2024
Large language models in 6G security: challenges and opportunities Tri Nguyen Huong Nguyen Ahmad Ijaz Saeid Sheikhi Athanasios V. Vasilakos Panos Kostakos ELM 28 7 0 18 Mar 2024
Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning Shuai Zhao Leilei Gan Anh Tuan Luu Jie Fu Lingjuan Lyu Meihuizi Jia Jinming Wen AAML 26 22 0 19 Feb 2024
Test-Time Backdoor Attacks on Multimodal Large Language Models Dong Lu Tianyu Pang Chao Du Qian Liu Xianjun Yang Min-Bin Lin AAML 56 21 0 13 Feb 2024
A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly Yifan Yao Jinhao Duan Kaidi Xu Yuanfang Cai Eric Sun Yue Zhang PILM ELM 36 475 0 04 Dec 2023
Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review Pengzhou Cheng Zongru Wu Wei Du Haodong Zhao Wei Lu Gongshen Liu SILM AAML 29 17 0 12 Sep 2023
When Foundation Model Meets Federated Learning: Motivations, Challenges, and Future Directions Weiming Zhuang Chen Chen Lingjuan Lyu C. L. P. Chen Yaochu Jin Lingjuan Lyu AIFin AI4CE 99 85 0 27 Jun 2023
Backdoor Attacks with Input-unique Triggers in NLP Xukun Zhou Jiwei Li Tianwei Zhang Lingjuan Lyu Muqiao Yang Jun He SILM AAML 22 9 0 25 Mar 2023
A Pathway Towards Responsible AI Generated Content Chen Chen Jie Fu Lingjuan Lyu 49 71 0 02 Mar 2023
A Survey on Backdoor Attack and Defense in Natural Language Processing Xuan Sheng Zhaoyang Han Piji Li Xiangmao Chang SILM 19 19 0 22 Nov 2022
A Survey of Adversarial Defences and Robustness in NLP Shreyansh Goyal Sumanth Doddapaneni Mitesh M.Khapra B. Ravindran AAML 29 30 0 12 Mar 2022
Threats to Pre-trained Language Models: Survey and Taxonomy Shangwei Guo Chunlong Xie Jiwei Li Lingjuan Lyu Tianwei Zhang PILM 27 29 0 14 Feb 2022
A General Framework for Defending Against Backdoor Attacks via Influence Graph Xiaofei Sun Jiwei Li Xiaoya Li Ziyao Wang Tianwei Zhang Han Qiu Fei Wu Chun Fan AAML TDI 24 5 0 29 Nov 2021
Triggerless Backdoor Attack for NLP Tasks with Clean Labels Leilei Gan Jiwei Li Tianwei Zhang Xiaoya Li Yuxian Meng Fei Wu Yi Yang Shangwei Guo Chun Fan AAML SILM 27 74 0 15 Nov 2021
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 274 2,015 0 28 Jul 2020
Mitigating backdoor attacks in LSTM-based Text Classification Systems by Backdoor Keyword Identification Chuanshuai Chen Jiazhu Dai SILM 55 126 0 11 Jul 2020
Description Based Text Classification with Reinforcement Learning Duo Chai Wei Yu Wu Qinghong Han Fei Wu Jiwei Li VLM 116 66 0 08 Feb 2020
FreeLB: Enhanced Adversarial Training for Natural Language Understanding Chen Zhu Yu Cheng Zhe Gan S. Sun Tom Goldstein Jingjing Liu AAML 223 437 0 25 Sep 2019
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,743 0 26 Sep 2016
Deep Reinforcement Learning for Dialogue Generation Jiwei Li Will Monroe Alan Ritter Michel Galley Jianfeng Gao Dan Jurafsky 214 1,326 0 05 Jun 2016
Effective Approaches to Attention-based Neural Machine Translation Thang Luong Hieu H. Pham Christopher D. Manning 218 7,926 0 17 Aug 2015