ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs

19 February 2024

Bhaskar Ramasubramanian

Bo Li

Radha Poovendran

ArXiv PDF HTML

Papers citing "ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs"

50 / 65 papers shown

Title
LM-Scout: Analyzing the Security of Language Model Integration in Android Apps Muhammad Ibrahim Gűliz Seray Tuncay Z. Berkay Celik Aravind Machiry Antonio Bianchi 31 0 0 13 May 2025
LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities Kalyan Nakka Jimmy Dani Ausmit Mondal Nitesh Saxena AAML 30 0 0 08 May 2025
Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary Yakai Li Jiekang Hu Weiduan Sang Luping Ma Jing Xie Weijuan Zhang Aimin Yu Shijie Zhao Qingjia Huang Qihang Zhou AAML 52 0 0 28 Apr 2025
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search Quy-Anh Dang Chris Ngo Truong Son-Hy AAML SyDa 33 0 0 21 Apr 2025
The Structural Safety Generalization Problem Julius Broomfield Tom Gibbs Ethan Kosak-Hine George Ingebretsen Tia Nasir Jason Zhang Reihaneh Iranmanesh Sara Pieri Reihaneh Rabbany Kellin Pelrine AAML 29 0 0 13 Apr 2025
Geneshift: Impact of different scenario shift on Jailbreaking LLM Tianyi Wu Zhiwei Xue Yue Liu Jiaheng Zhang Bryan Hooi See-Kiong Ng 36 0 0 10 Apr 2025
Bypassing Safety Guardrails in LLMs Using Humor Pedro Cisneros-Velarde 31 0 0 09 Apr 2025
Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking Yu-Hang Wu Yu-Jie Xiong Jie-Zhang AAML 30 0 0 08 Apr 2025
A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models Carlos Peláez-González Andrés Herrera-Poyatos Cristina Zuheros David Herrera-Poyatos Virilo Tejedor F. Herrera AAML 24 0 0 07 Apr 2025
Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models Zhaochen Wang Yujun Cai Zi Huang Bryan Hooi Yiwei Wang Ming Yang CoGe VLM 73 0 0 02 Apr 2025
Evolving Security in LLMs: A Study of Jailbreak Attacks and Defenses Zhengchun Shang Wenlan Wei AAML 45 0 0 02 Apr 2025
Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing Johan Wahréus Ahmed Mohamed Hussain P. Papadimitratos 53 0 0 27 Mar 2025
Iterative Prompting with Persuasion Skills in Jailbreaking Large Language Models Shih-Wen Ke Guan-Yu Lai Guo-Lin Fang Hsi-Yuan Kao SILM 89 0 0 26 Mar 2025
Evaluating Machine Learning Approaches for ASCII Art Generation Sai Coumar Zachary Kingston 50 0 0 18 Mar 2025
Adversarial Tokenization Renato Lui Geh Zilei Shao Guy Van den Broeck SILM AAML 87 0 0 04 Mar 2025
Making Them a Malicious Database: Exploiting Query Code to Jailbreak Aligned Large Language Models Qingsong Zou Jingyu Xiao Qing Li Zhi Yan Y. Wang Li Xu Wenxuan Wang Kuofeng Gao Ruoyu Li Yong-jia Jiang AAML 181 0 0 21 Feb 2025
A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos Yang Yao Xuan Tong Ruofan Wang Yixu Wang Lujundong Li Liang Liu Yan Teng Y. Wang LRM 45 3 0 19 Feb 2025
SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities Fengqing Jiang Zhangchen Xu Yuetai Li Luyao Niu Zhen Xiang Bo-wen Li Bill Yuchen Lin Radha Poovendran KELM ELM LRM 83 14 0 17 Feb 2025
KDA: A Knowledge-Distilled Attacker for Generating Diverse Prompts to Jailbreak LLMs Buyun Liang Kwan Ho Ryan Chan D. Thaker Jinqi Luo René Vidal AAML 43 0 0 05 Feb 2025
You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense Wuyuao Mai Geng Hong Pei Chen Xudong Pan Baojun Liu Y. Zhang Haixin Duan Min Yang AAML 68 1 0 21 Jan 2025
Lessons From Red Teaming 100 Generative AI Products Blake Bullwinkel Amanda Minnich Shiven Chawla Gary Lopez Martin Pouliot ... Pete Bryan Ram Shankar Siva Kumar Yonatan Zunger Chang Kawaguchi Mark Russinovich AAML VLM 37 5 0 13 Jan 2025
ChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates Fengqing Jiang Zhangchen Xu Luyao Niu Bill Yuchen Lin Radha Poovendran SILM 73 5 0 08 Jan 2025
MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue Fengxiang Wang Ranjie Duan Peng Xiao Xiaojun Jia Shiji Zhao ... Hang Su Jialing Tao Hui Xue J. Zhu Hui Xue LLMAG 58 7 0 08 Jan 2025
SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage Xiaoning Dong Wenbo Hu Wei Xu Tianxing He 72 0 0 19 Dec 2024
Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation Xuying Li Zhuo Li Yuji Kosuga Yasuhiro Yoshida Victor Bian AAML 86 2 0 05 Dec 2024
The Dark Side of Trust: Authority Citation-Driven Jailbreak Attacks on Large Language Models Xikang Yang Xuehai Tang Jizhong Han Songlin Hu 68 0 0 18 Nov 2024
SQL Injection Jailbreak: A Structural Disaster of Large Language Models Jiawei Zhao Kejiang Chen W. Zhang Nenghai Yu AAML 40 0 0 03 Nov 2024
Plentiful Jailbreaks with String Compositions Brian R. Y. Huang AAML 41 2 0 01 Nov 2024
Imprompter: Tricking LLM Agents into Improper Tool Use Xiaohan Fu Shuheng Li Zihan Wang Y. Liu Rajesh K. Gupta Taylor Berg-Kirkpatrick Earlence Fernandes SILM LLMAG 54 15 0 19 Oct 2024
Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models Yiting Dong Guobin Shen Dongcheng Zhao Xiang-Yu He Yi Zeng 34 0 0 05 Oct 2024
AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs Xiaogeng Liu Peiran Li Edward Suh Yevgeniy Vorobeychik Zhuoqing Mao Somesh Jha Patrick McDaniel Huan Sun Bo Li Chaowei Xiao 32 17 0 03 Oct 2024
Visual Perception in Text Strings Qi Jia Xiang Yue Shanshan Huang Ziheng Qin Yizhu Liu Bill Yuchen Lin Yang You VLM 44 1 0 02 Oct 2024
FlipAttack: Jailbreak LLMs via Flipping Yue Liu Xiaoxin He Miao Xiong Jinlan Fu Shumin Deng Bryan Hooi AAML 34 12 0 02 Oct 2024
Endless Jailbreaks with Bijection Learning Brian R. Y. Huang Maximilian Li Leonard Tang AAML 81 5 0 02 Oct 2024
Read Over the Lines: Attacking LLMs and Toxicity Detection Systems with ASCII Art to Mask Profanity Sergey Berezin R. Farahbakhsh Noel Crespi 19 2 0 27 Sep 2024
Jailbreaking Large Language Models with Symbolic Mathematics Emet Bethany Mazal Bethany Juan Arturo Nolazco Flores S. Jha Peyman Najafirad AAML 16 3 0 17 Sep 2024
LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet Nathaniel Li Ziwen Han Ian Steneker Willow Primack Riley Goodside Hugh Zhang Zifan Wang Cristina Menghini Summer Yue AAML MU 46 40 0 27 Aug 2024
Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique Tej Deep Pala Vernon Y.H. Toh Rishabh Bhardwaj Soujanya Poria AAML 23 2 0 20 Aug 2024
RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent Huiyu Xu Wenhui Zhang Zhibo Wang Feng Xiao Rui Zheng Yunhe Feng Zhongjie Ba Kui Ren AAML LLMAG 29 11 0 23 Jul 2024
Analyzing the Generalization and Reliability of Steering Vectors Daniel Tan David Chanin Aengus Lynch Dimitrios Kanoulas Brooks Paige Adrià Garriga-Alonso Robert Kirk LLMSV 84 16 0 17 Jul 2024
Jailbreak Attacks and Defenses Against Large Language Models: A Survey Sibo Yi Yule Liu Zhen Sun Tianshuo Cong Xinlei He Jiaxing Song Ke Xu Qi Li AAML 36 80 0 05 Jul 2024
LoRA-Guard: Parameter-Efficient Guardrail Adaptation for Content Moderation of Large Language Models Hayder Elesedy Pedro M. Esperança Silviu Vlad Oprea Mete Ozay KELM 28 2 0 03 Jul 2024
Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks Yue Zhou Henry Peng Zou Barbara Maria Di Eugenio Yang Zhang HILM LRM 52 1 0 01 Jul 2024
JailbreakZoo: Survey, Landscapes, and Horizons in Jailbreaking Large Language and Vision-Language Models Haibo Jin Leyang Hu Xinuo Li Peiyan Zhang Chonghan Chen Jun Zhuang Haohan Wang PILM 36 26 0 26 Jun 2024
Steering Without Side Effects: Improving Post-Deployment Control of Language Models Asa Cooper Stickland Alexander Lyzhov Jacob Pfau Salsabila Mahdi Samuel R. Bowman LLMSV AAML 57 18 0 21 Jun 2024
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities Sachit Menon Richard Zemel Carl Vondrick LRM 41 1 0 20 Jun 2024
JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models Delong Ran Jinyuan Liu Yichen Gong Jingyi Zheng Xinlei He Tianshuo Cong Anyu Wang ELM 47 10 0 13 Jun 2024
Is On-Device AI Broken and Exploitable? Assessing the Trust and Ethics in Small Language Models Kalyan Nakka Jimmy Dani Nitesh Saxena 43 1 0 08 Jun 2024
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens Lin Lu Hai Yan Zenghui Yuan Jiawen Shi Wenqi Wei Pin-Yu Chen Pan Zhou AAML 49 8 0 06 Jun 2024
Ranking Manipulation for Conversational Search Engines Samuel Pfrommer Yatong Bai Tanmay Gautam Somayeh Sojoudi SILM 44 4 0 05 Jun 2024