Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning

11 January 2024

Papers citing "Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning"

24 / 24 papers shown

Title
Uni-Retrieval: A Multi-Style Retrieval Framework for STEM's Education Yanhao Jia Xinyi Wu Hao Li Qinglin Zhang Yuxiao Hu Shuai Zhao Wenqi Fan 122 3 0 09 Feb 2025
Attention Tracker: Detecting Prompt Injection Attacks in LLMs Kuo-Han Hung Ching-Yun Ko Ambrish Rawat I-Hsin Chung Winston H. Hsu Pin-Yu Chen 94 8 0 01 Nov 2024
Krait: A Backdoor Attack Against Graph Prompt Tuning Ying Song Rita Singh Balaji Palanisamy AAML 99 1 0 18 Jul 2024
Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning Shuai Zhao Leilei Gan Anh Tuan Luu Jie Fu Lingjuan Lyu Meihuizi Jia Jinming Wen AAML 53 24 0 19 Feb 2024
Hijacking Large Language Models via Adversarial In-Context Learning Yao Qiang Xiangyu Zhou Saleh Zare Zade Prashant Khanduri Dongxiao Zhu 91 35 0 16 Nov 2023
Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations Wenjie Mo Lyne Tchapmi Qin Liu Jiong Wang Jun Yan Chaowei Xiao Muhao Chen Muhao Chen AAML 107 20 0 16 Nov 2023
Graph of Thoughts: Solving Elaborate Problems with Large Language Models Maciej Besta Nils Blach Aleš Kubíček Robert Gerstenberger Michal Podstawski ... Joanna Gajda Tomasz Lehmann H. Niewiadomski Piotr Nyczyk Torsten Hoefler LRM AI4CE LM&Ro 108 665 0 18 Aug 2023
DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models Wei Ping Weixin Chen Hengzhi Pei Chulin Xie Mintong Kang ... Zinan Lin Yuk-Kit Cheng Sanmi Koyejo D. Song Yue Liu 89 414 0 20 Jun 2023
Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations Chenglei Si Dan Friedman Nitish Joshi Shi Feng Danqi Chen He He 49 45 0 22 May 2023
Symbol tuning improves in-context learning in language models Jerry W. Wei Le Hou Andrew Kyle Lampinen Xiangning Chen Da Huang ... Xinyun Chen Yifeng Lu Denny Zhou Tengyu Ma Quoc V. Le LRM 56 79 0 15 May 2023
A Theory of Emergent In-Context Learning as Implicit Structure Induction Michael Hahn Navin Goyal LRM 47 85 0 14 Mar 2023
Training-free Lexical Backdoor Attacks on Language Models Yujin Huang Terry Yue Zhuo Xingliang Yuan Han Hu Lizhen Qu Chunyang Chen SILM 60 45 0 08 Feb 2023
Active Example Selection for In-Context Learning Yiming Zhang Shi Feng Chenhao Tan SILM LRM 81 199 0 08 Nov 2022
Certified Robustness Against Natural Language Attacks by Causal Intervention Haiteng Zhao Chang Ma Xinshuai Dong Anh Tuan Luu Zhi-Hong Deng Hanwang Zhang AAML 64 35 0 24 May 2022
Data Distributional Properties Drive Emergent In-Context Learning in Transformers Stephanie C. Y. Chan Adam Santoro Andrew Kyle Lampinen Jane X. Wang Aaditya K. Singh Pierre Harvey Richemond J. Mcclelland Felix Hill 116 261 0 22 Apr 2022
GPT-NeoX-20B: An Open-Source Autoregressive Language Model Sid Black Stella Biderman Eric Hallahan Quentin G. Anthony Leo Gao ... Shivanshu Purohit Laria Reynolds J. Tow Benqi Wang Samuel Weinbach 161 826 0 14 Apr 2022
Triggerless Backdoor Attack for NLP Tasks with Clean Labels Leilei Gan Jiwei Li Tianwei Zhang Xiaoya Li Yuxian Meng Leilei Gan Yi Yang Shangwei Guo Chun Fan AAML SILM 61 78 0 15 Nov 2021
An Explanation of In-context Learning as Implicit Bayesian Inference Sang Michael Xie Aditi Raghunathan Percy Liang Tengyu Ma ReLM BDL VPVLM LRM 183 749 0 03 Nov 2021
MetaICL: Learning to Learn In Context Sewon Min M. Lewis Luke Zettlemoyer Hannaneh Hajishirzi LRM 206 488 0 29 Oct 2021
Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning Linyang Li Demin Song Xiaonan Li Jiehang Zeng Ruotian Ma Xipeng Qiu 109 140 0 31 Aug 2021
Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger Fanchao Qi Mukai Li Yangyi Chen Zhengyan Zhang Zhiyuan Liu Yasheng Wang Maosong Sun SILM 64 229 0 26 May 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 434 2,091 0 31 Dec 2020
BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain Tianyu Gu Brendan Dolan-Gavitt S. Garg SILM 106 1,772 0 22 Aug 2017
LCSTS: A Large Scale Chinese Short Text Summarization Dataset Baotian Hu Qingcai Chen Fangze Zhu 72 339 0 19 Jun 2015