AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization

30 May 2024

Yinpeng Dong

Zhaoxia Yin

Hang Su

Papers citing "AutoBreach: Universal and Adaptive Jailbreaking with Efficient Wordplay-Guided Optimization"

3 / 3 papers shown

Title
Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring Honglin Mu Han He Yuxin Zhou Yunlong Feng Yang Xu ... Zeming Liu Xudong Han Qi Shi Qingfu Zhu Wanxiang Che AAML 38 1 0 28 Oct 2024
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 117 301 0 19 Sep 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 389 8,495 0 28 Jan 2022