TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models

12 June 2023

Papers citing "TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models"

21 / 21 papers shown

Title
A Survey of Attacks on Large Language Models Wenrui Xu Keshab K. Parhi AAML ELM 7 0 0 18 May 2025
Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs Chetan Pathade AAML SILM 59 0 0 07 May 2025
Propaganda via AI? A Study on Semantic Backdoors in Large Language Models Nay Myat Min Long H. Pham Yige Li Jun Sun AAML 33 0 0 15 Apr 2025
Large Language Models Can Verbatim Reproduce Long Malicious Sequences Sharon Lin Krishnamurthy Dvijotham Jamie Hayes Chongyang Shi Ilia Shumailov Shuang Song AAML 44 0 0 21 Mar 2025
TFHE-Coder: Evaluating LLM-agentic Fully Homomorphic Encryption Code Generation Mayank Kumar Jinbao Xue Mengxin Zheng Qian Lou 65 2 0 15 Mar 2025
CipherPrune: Efficient and Scalable Private Transformer Inference Yancheng Zhang Jinbao Xue Mengxin Zheng Mimi Xie Mingzhe Zhang Lei Jiang Qian Lou 64 2 0 24 Feb 2025
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks Ang Li Yin Zhou Vethavikashini Chithrra Raghuram Tom Goldstein Micah Goldblum AAML 86 7 0 12 Feb 2025
Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation Minkyoung Kim Yunha Kim Hyeram Seo Heejung Choi Jiye Han ... Hyoje Jung Byeolhee Kim Young-Hak Kim Sanghyun Park Tae Joon Jun AAML 83 0 0 18 Dec 2024
Neutralizing Backdoors through Information Conflicts for Large Language Models Chen Chen Yuchen Sun Xueluan Gong Jiaxin Gao K. Lam KELM AAML 77 0 0 27 Nov 2024
CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization Nay Myat Min Long H. Pham Yige Li Jun Sun AAML 69 4 0 18 Nov 2024
Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring Honglin Mu Han He Yuxin Zhou Yunlong Feng Yang Xu ... Zeming Liu Xudong Han Qi Shi Qingfu Zhu Wanxiang Che AAML 40 1 0 28 Oct 2024
ConfusedPilot: Confused Deputy Risks in RAG-based LLMs Ayush RoyChowdhury Mulong Luo Prateek Sahu Sarbartha Banerjee Mohit Tiwari SILM 48 0 0 09 Aug 2024
BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models Jiaqi Xue Meng Zheng Yebowen Hu Fei Liu Xun Chen Qian Lou AAML SILM 38 25 0 03 Jun 2024
TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models Pengzhou Cheng Yidong Ding Tianjie Ju Zongru Wu Wei Du Ping Yi Zhuosheng Zhang Gongshen Liu SILM AAML 40 20 0 22 May 2024
Shortcuts Arising from Contrast: Effective and Covert Clean-Label Attacks in Prompt-Based Learning Xiaopeng Xie Ming Yan Xiwen Zhou Chenlong Zhao Suli Wang Yong Zhang Joey Tianyi Zhou AAML 38 0 0 30 Mar 2024
Backdoor Attacks and Countermeasures in Natural Language Processing Models: A Comprehensive Security Review Pengzhou Cheng Zongru Wu Wei Du Haodong Zhao Wei Lu Gongshen Liu SILM AAML 31 17 0 12 Sep 2023
TrojText: Test-time Invisible Textual Trojan Insertion Qiang Lou Ye Liu Bo Feng 37 23 0 03 Mar 2023
Attacks in Adversarial Machine Learning: A Systematic Survey from the Life-cycle Perspective Baoyuan Wu Zihao Zhu Li Liu Qingshan Liu Zhaofeng He Siwei Lyu AAML 44 21 0 19 Feb 2023
Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity Yao Lu Max Bartolo Alastair Moore Sebastian Riedel Pontus Stenetorp AILaw LRM 279 1,124 0 18 Apr 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 243 1,924 0 31 Dec 2020
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 419 2,588 0 03 Sep 2019