A Comprehensive Survey of Attack Techniques, Implementation, and
Mitigation Strategies in Large Language Models

A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models

18 December 2023

Daniel Wankit Yip

Papers citing "A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models"

19 / 19 papers shown

Title
A Survey on Privacy Risks and Protection in Large Language Models Kang Chen Xiuze Zhou Yuanguo Lin Shibo Feng Li Shen Pengcheng Wu AILaw PILM 147 0 0 04 May 2025
Beyond Trusting Trust: Multi-Model Validation for Robust Code Generation Bradley McDanel 58 0 0 22 Feb 2025
On the Privacy Risk of In-context Learning Haonan Duan Adam Dziedzic Mohammad Yaghini Nicolas Papernot Franziska Boenisch SILM PILM 61 36 0 15 Nov 2024
Enhancing LLM-based Autonomous Driving Agents to Mitigate Perception Attacks Ruoyu Song Muslum Ozgur Ozmen Hyungsub Kim Antonio Bianchi Z. Berkay Celik AAML 30 5 0 22 Sep 2024
Risks, Causes, and Mitigations of Widespread Deployments of Large Language Models (LLMs): A Survey Md. Nazmus Sakib Md Athikul Islam Royal Pathak Md Mashrur Arifin ALM PILM 29 2 0 01 Aug 2024
Jailbreak Attacks and Defenses Against Large Language Models: A Survey Sibo Yi Yule Liu Zhen Sun Tianshuo Cong Xinlei He Jiaxing Song Ke Xu Qi Li AAML 36 80 0 05 Jul 2024
JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models Haibo Jin Leyang Hu Xinuo Li Peiyan Zhang Chonghan Chen Jun Zhuang Haohan Wang PILM 36 26 0 26 Jun 2024
Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization Dixuan Wang Yanda Li Junyuan Jiang Zepeng Ding Ziqin Luo Guochao Jiang Jiaqing Liang Deqing Yang 27 11 0 27 May 2024
When LLMs Meet Cybersecurity: A Systematic Literature Review Jie Zhang Haoyu Bu Hui Wen Yu Chen Lun Li Hongsong Zhu 42 36 0 06 May 2024
Does Prompt-Tuning Language Model Ensure Privacy? Shangyu Xie Wei Dai Esha Ghosh Sambuddha Roy Dan Schwartz Kim Laine SILM 48 4 0 07 Apr 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 322 4,077 0 24 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 367 8,495 0 28 Jan 2022
Increasing the Cost of Model Extraction with Calibrated Proof of Work Adam Dziedzic Muhammad Ahmad Kaleem Y. Lu Nicolas Papernot FedML MIACV AAML MLAU 63 28 0 23 Jan 2022
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 242 592 0 14 Jul 2021
Stateful Detection of Model Extraction Attacks Soham Pal Yash Gupta Aditya Kanade S. Shevade MLAU 54 24 0 12 Jul 2021
DeepPoison: Feature Transfer Based Stealthy Poisoning Attack Jinyin Chen Longyuan Zhang Haibin Zheng Xueke Wang Zhaoyan Ming AAML 27 19 0 06 Jan 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 290 1,815 0 14 Dec 2020
Robust Encodings: A Framework for Combating Adversarial Typos Erik Jones Robin Jia Aditi Raghunathan Percy Liang AAML 137 102 0 04 May 2020