Exploring Backdoor Vulnerabilities of Chat Models

Exploring Backdoor Vulnerabilities of Chat Models

3 April 2024

Yankai Lin

Papers citing "Exploring Backdoor Vulnerabilities of Chat Models"

9 / 9 papers shown

Title
BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models Zhilin Wang Hongwei Li Rui Zhang Wenbo Jiang Kangjie Chen Tianwei Zhang Qingchuan Zhao Jiawei Li AAML 46 0 0 06 May 2025
Neutralizing Backdoors through Information Conflicts for Large Language Models Chen Chen Yuchen Sun Xueluan Gong Jiaxin Gao K. Lam KELM AAML 72 0 0 27 Nov 2024
PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning Tingchen Fu Mrinank Sharma Philip H. S. Torr Shay B. Cohen David M. Krueger Fazl Barez AAML 44 7 0 11 Oct 2024
Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges Qin Liu Wenjie Mo Terry Tong Lyne Tchapmi Fei Wang Chaowei Xiao Muhao Chen AAML 33 4 0 30 Sep 2024
Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers Terry Tong Lyne Tchapmi Qin Liu Muhao Chen AAML SILM 45 1 0 04 Jul 2024
CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models Yuetai Li Zhangchen Xu Fengqing Jiang Luyao Niu D. Sahabandu Bhaskar Ramasubramanian Radha Poovendran SILM AAML 54 6 0 18 Jun 2024
Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents Wenkai Yang Xiaohan Bi Yankai Lin Sishuo Chen Jie Zhou Xu Sun LLMAG AAML 44 53 0 17 Feb 2024
Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review Pengzhou Cheng Zongru Wu Wei Du Haodong Zhao Wei Lu Gongshen Liu SILM AAML 29 17 0 12 Sep 2023
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 92 124 0 01 May 2023