Backdoor Attacks for In-Context Learning with Language Models

Backdoor Attacks for In-Context Learning with Language Models

27 July 2023

Matthew Jagielski

Florian Tramèr

Nicholas Carlini

Papers citing "Backdoor Attacks for In-Context Learning with Language Models"

12 / 12 papers shown

Title
BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models Zihan Wang Hongwei Li Rui Zhang Wenbo Jiang Kangjie Chen Tianwei Zhang Qingchuan Zhao Jiawei Li AAML 46 0 0 06 May 2025
Topic-FlipRAG: Topic-Orientated Adversarial Opinion Manipulation Attacks to Retrieval-Augmented Generation Models Jiawei Liu Zhuo Chen Miaokun Chen Fengchang Yu Fan Zhang Xiaofeng Wang Wei Lu Xiaozhong Liu AAML SILM 66 0 0 03 Feb 2025
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents Hanrong Zhang Jingyuan Huang Kai Mei Yifei Yao Zhenting Wang Chenlu Zhan Hongwei Wang Yongfeng Zhang AAML LLMAG ELM 51 22 0 03 Oct 2024
Context is the Key: Backdoor Attacks for In-Context Learning with Vision Transformers Gorka Abad S. Picek Lorenzo Cavallaro A. Urbieta SILM 47 0 0 06 Sep 2024
Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage Md. Rafi Ur Rashid Jing Liu T. Koike-Akino Shagufta Mehnaz Ye Wang MU SILM 43 3 0 30 Aug 2024
Mobile Edge Intelligence for Large Language Models: A Contemporary Survey Guanqiao Qu Qiyuan Chen Wei Wei Zheng Lin Xianhao Chen Kaibin Huang 42 43 0 09 Jul 2024
Mitigating Fine-tuning based Jailbreak Attack with Backdoor Enhanced Safety Alignment Jiong Wang Jiazhao Li Yiquan Li Xiangyu Qi Junjie Hu Yixuan Li P. McDaniel Muhao Chen Bo Li Chaowei Xiao AAML SILM 40 18 0 22 Feb 2024
StruQ: Defending Against Prompt Injection with Structured Queries Sizhe Chen Julien Piet Chawin Sitawarin David Wagner SILM AAML 30 67 0 09 Feb 2024
The Philosopher's Stone: Trojaning Plugins of Large Language Models Tian Dong Minhui Xue Guoxing Chen Rayne Holland Shaofeng Li Yan Meng Zhen Liu Haojin Zhu AAML 25 11 0 01 Dec 2023
Backdoor Threats from Compromised Foundation Models to Federated Learning Xi Li Songhe Wang Chen Henry Wu Hao Zhou Jiaqi Wang 95 10 0 31 Oct 2023
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 282 1,996 0 31 Dec 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 264 4,489 0 23 Jan 2020