Title
Knowledge Conflicts for LLMs: A Survey Rongwu Xu Zehan Qi Zhijiang Guo Cunxiang Wang Hongru Wang Yue Zhang Wei Xu 208 96 0 13 Mar 2024
Automatic and Universal Prompt Injection Attacks against Large Language Models Xiaogeng Liu Zhiyuan Yu Yizhe Zhang Ning Zhang Chaowei Xiao SILM AAML 51 35 0 07 Mar 2024
Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks Dario Pasquini Martin Strohmeier Carmela Troncoso AAML 48 22 0 06 Mar 2024
InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents Qiusi Zhan Zhixiang Liang Zifan Ying Daniel Kang LLMAG 57 76 0 05 Mar 2024
Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models Arijit Ghosh Chowdhury Md. Mofijul Islam Vaibhav Kumar F. H. Shezan Vaibhav Kumar Vinija Jain Aman Chadha AAML PILM 41 30 0 03 Mar 2024
PRSA: PRompt Stealing Attacks against Large Language Models Yong Yang Changjiang Li Yi Jiang Xi Chen Haoyu Wang Xuhong Zhang Zonghui Wang Shouling Ji SILM AAML 41 1 0 29 Feb 2024
A New Era in LLM Security: Exploring Security Concerns in Real-World LLM-based Systems Fangzhou Wu Ning Zhang Somesh Jha P. McDaniel Chaowei Xiao 34 69 0 28 Feb 2024
LLM Task Interference: An Initial Study on the Impact of Task-Switch in Conversational History Akash Gupta Ivaxi Sheth Vyas Raina Mark Gales Mario Fritz 50 4 0 28 Feb 2024
Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems Zhenting Qi Hanlin Zhang Eric Xing Sham Kakade Hima Lakkaraju SILM 49 19 0 27 Feb 2024
Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue Zhenhong Zhou Jiuyang Xiang Haopeng Chen Quan Liu Zherui Li Sen Su 42 20 0 27 Feb 2024
WIPI: A New Web Threat for LLM-Driven Web Agents Fangzhou Wu Shutong Wu Yulong Cao Chaowei Xiao LLMAG 34 21 0 26 Feb 2024
Fast Adversarial Attacks on Language Models In One GPU Minute Vinu Sankar Sadasivan Shoumik Saha Gaurang Sriramanan Priyatham Kattakinda Atoosa Malemir Chegini S. Feizi MIALM 45 34 0 23 Feb 2024
A First Look at GPT Apps: Landscape and Vulnerability Zejun Zhang Li Zhang Xin Yuan Anlan Zhang Mengwei Xu Feng Qian ELM 21 16 0 23 Feb 2024
Generative AI Security: Challenges and Countermeasures Banghua Zhu Norman Mu Jiantao Jiao David Wagner AAML SILM 66 8 0 20 Feb 2024
Task-Oriented Dialogue with In-Context Learning Tom Bocklisch Thomas Werkmeister Daksh Varshneya Alan Nichol 45 6 0 19 Feb 2024
A Chinese Dataset for Evaluating the Safeguards in Large Language Models Yuxia Wang Zenan Zhai Haonan Li Xudong Han Lizhi Lin Zhenxuan Zhang Jingru Zhao Preslav Nakov Timothy Baldwin 47 9 0 19 Feb 2024
SPML: A DSL for Defending Language Models Against Prompt Attacks Reshabh K Sharma Vinayak Gupta Dan Grossman AAML 57 16 0 19 Feb 2024
A Trembling House of Cards? Mapping Adversarial Attacks against Language Agents Lingbo Mo Zeyi Liao Boyuan Zheng Yu-Chuan Su Chaowei Xiao Huan Sun AAML LLMAG 51 15 0 15 Feb 2024
Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues Zhiyuan Chang Mingyang Li Yi Liu Junjie Wang Qing Wang Yang Liu 96 38 0 14 Feb 2024
Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning Gelei Deng Yi Liu Kailong Wang Yuekang Li Tianwei Zhang Yang Liu 31 43 0 13 Feb 2024
PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented Generation of Large Language Models Wei Zou Runpeng Geng Binghui Wang Jinyuan Jia SILM 41 20 1 12 Feb 2024
Machine Unlearning in Large Language Models Kongyang Chen Zixin Wang Bing Mi Waixi Liu Shaowei Wang Xiaojun Ren Jiaxing Shen MU 37 11 0 03 Feb 2024
Security and Privacy Challenges of Large Language Models: A Survey B. Das M. H. Amini Yanzhao Wu PILM ELM 26 108 0 30 Jan 2024
AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models Dong Shu Mingyu Jin Suiyuan Zhu Beichen Wang Zihao Zhou Chong Zhang Yongfeng Zhang ELM 59 12 0 17 Jan 2024
Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks Against LLM-Integrated Applications Xuchen Suo AAML SILM 39 27 0 15 Jan 2024
Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems Tianyu Cui Yanling Wang Chuanpu Fu Yong Xiao Sijia Li ... Junwu Xiong Xinyu Kong Zujie Wen Ke Xu Qi Li 63 57 0 11 Jan 2024
MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance Renjie Pi Tianyang Han Jianshu Zhang Yueqi Xie Rui Pan Qing Lian Hanze Dong Jipeng Zhang Tong Zhang AAML 34 61 0 05 Jan 2024
MalModel: Hiding Malicious Payload in Mobile Deep Learning Models with Black-box Backdoor Attack Jiayi Hua Kailong Wang Meizhen Wang Guangdong Bai Xiapu Luo Haoyu Wang AAML 42 3 0 05 Jan 2024
A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models Daniel Wankit Yip Aysan Esmradi C. Chan AAML 36 11 0 02 Jan 2024
Jatmo: Prompt Injection Defense by Task-Specific Finetuning Julien Piet Maha Alrashed Chawin Sitawarin Sizhe Chen Zeming Wei Elizabeth Sun Basel Alomair David Wagner AAML SyDa 87 53 0 29 Dec 2023
SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation Bangyan He Xiaojun Jia Siyuan Liang Tianrui Lou Yang Liu Xiaochun Cao AAML VLM 36 23 0 08 Dec 2023
Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jailbreak Yanrui Du Sendong Zhao Ming Ma Yuhan Chen Bing Qin 38 15 0 07 Dec 2023
Tree of Attacks: Jailbreaking Black-Box LLMs Automatically Anay Mehrotra Manolis Zampetakis Paul Kassianik Blaine Nelson Hyrum Anderson Yaron Singer Amin Karbasi 49 211 0 04 Dec 2023
Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents Zhuosheng Zhang Yao Yao Aston Zhang Xiangru Tang Xinbei Ma ... Yiming Wang Mark B. Gerstein Rui Wang Gongshen Liu Hai Zhao LLMAG LM&Ro LRM 47 53 0 20 Nov 2023
Assessing Prompt Injection Risks in 200+ Custom GPTs Jiahao Yu Yuhang Wu Dong Shu Mingyu Jin Sabrina Yang Xinyu Xing 35 51 0 20 Nov 2023
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts Yuanwei Wu Xiang Li Yixin Liu Pan Zhou Lichao Sun 21 59 0 15 Nov 2023
Alignment is not sufficient to prevent large language models from generating harmful information: A psychoanalytic perspective Zi Yin Wei Ding Jia Liu 35 1 0 14 Nov 2023
Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications Fengqing Jiang Zhangchen Xu Luyao Niu Wei Ping Jinyuan Jia Bo Li Radha Poovendran AAML 23 20 0 07 Nov 2023
Can LLMs Follow Simple Rules? Norman Mu Sarah Chen Zifan Wang Sizhe Chen David Karamardian Lulwa Aljeraisy Basel Alomair Dan Hendrycks David Wagner ALM 31 27 0 06 Nov 2023
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game Sam Toyer Olivia Watkins Ethan Mendes Justin Svegliato Luke Bailey ... Karim Elmaaroufi Pieter Abbeel Trevor Darrell Alan Ritter Stuart J. Russell 30 71 0 02 Nov 2023
From Chatbots to PhishBots? -- Preventing Phishing scams created using ChatGPT, Google Bard and Claude Sayak Saha Roy Poojitha Thota Krishna Vamsi Naragam Shirin Nilizadeh SILM 56 18 0 29 Oct 2023
Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition Sander Schulhoff Jeremy Pinto Anaum Khan Louis-Franccois Bouchard Chenglei Si Svetlina Anati Valen Tagliabue Anson Liu Kost Christopher Carnahan Jordan L. Boyd-Graber SILM 44 41 0 24 Oct 2023
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models Sicheng Zhu Ruiyi Zhang Bang An Gang Wu Joe Barrow Zichao Wang Furong Huang A. Nenkova Tong Sun SILM AAML 30 41 0 23 Oct 2023
An LLM can Fool Itself: A Prompt-Based Adversarial Attack Xilie Xu Keyi Kong Ning Liu Li-zhen Cui Di Wang Jingfeng Zhang Mohan Kankanhalli AAML SILM 41 69 0 20 Oct 2023
Formalizing and Benchmarking Prompt Injection Attacks and Defenses Yupei Liu Yuqi Jia Runpeng Geng Jinyuan Jia Neil Zhenqiang Gong SILM LLMAG 32 64 0 19 Oct 2023
LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks A. Happe Aaron Kaplan Jürgen Cito 42 16 0 17 Oct 2023
Privacy in Large Language Models: Attacks, Defenses and Future Directions Haoran Li Yulin Chen Jinglong Luo Yan Kang Xiaojin Zhang Qi Hu Chunkit Chan Yangqiu Song PILM 55 42 0 16 Oct 2023
On the Safety of Open-Sourced Large Language Models: Does Alignment Really Prevent Them From Being Misused? Hangfan Zhang Zhimeng Guo Huaisheng Zhu Bochuan Cao Lu Lin Jinyuan Jia Jinghui Chen Di Wu 78 24 0 02 Oct 2023
Warfare:Breaking the Watermark Protection of AI-Generated Content Guanlin Li Yifei Chen Jie Zhang Shangwei Guo Shangwei Guo Tianwei Zhang Jiwei Li Tianwei Zhang WIGM 60 3 0 27 Sep 2023
Large Language Model Alignment: A Survey Tianhao Shen Renren Jin Yufei Huang Chuang Liu Weilong Dong Zishan Guo Xinwei Wu Yan Liu Deyi Xiong LM&MA 29 179 0 26 Sep 2023