Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study

Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study

23 May 2023

Yi Liu

Lida Zhao

Kailong Wang

Yang Liu

Papers citing "Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study"

16 / 66 papers shown

Title
AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models Dong Shu Mingyu Jin Suiyuan Zhu Beichen Wang Zihao Zhou Chong Zhang Yongfeng Zhang ELM 49 12 0 17 Jan 2024
Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations Wenjie Mo Lyne Tchapmi Qin Liu Jiong Wang Jun Yan Chaowei Xiao Muhao Chen Muhao Chen AAML 67 17 0 16 Nov 2023
Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization Zhexin Zhang Junxiao Yang Pei Ke Fei Mi Hongning Wang Minlie Huang AAML 28 116 0 15 Nov 2023
Fake Alignment: Are LLMs Really Aligned Well? Yixu Wang Yan Teng Kexin Huang Chengqi Lyu Songyang Zhang Wenwei Zhang Xingjun Ma Yu-Gang Jiang Yu Qiao Yingchun Wang 43 16 0 10 Nov 2023
FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts Yichen Gong Delong Ran Jinyuan Liu Conglei Wang Tianshuo Cong Anyu Wang Sisi Duan Xiaoyun Wang MLLM 143 120 0 09 Nov 2023
Low-Resource Languages Jailbreak GPT-4 Zheng-Xin Yong Cristina Menghini Stephen H. Bach SILM 31 175 0 03 Oct 2023
Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation Shenzhi Wang Chang Liu Zilong Zheng Siyuan Qi Shuo Chen Qisen Yang Andrew Zhao Chaofei Wang Shiji Song Gao Huang LLMAG 37 66 0 02 Oct 2023
RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models Zekun Wang Zhongyuan Peng Haoran Que Jiaheng Liu Wangchunshu Zhou ... Wanli Ouyang Ke Xu Wenhu Chen Jie Fu Junran Peng LLMAG 47 86 0 01 Oct 2023
Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection Beizhe Hu Qiang Sheng Juan Cao Yuhui Shi Yang Li Danding Wang Peng Qi 31 81 0 21 Sep 2023
Redefining Qualitative Analysis in the AI Era: Utilizing ChatGPT for Efficient Thematic Analysis He Zhang Chuhao Wu Jingyi Xie Yao Lyu Jie Cai John M. Carroll 40 53 0 19 Sep 2023
PentestGPT: An LLM-empowered Automatic Penetration Testing Tool Gelei Deng Yi Liu Víctor Mayoral-Vilches Peng Liu Yuekang Li Yuan Xu Tianwei Zhang Yang Liu M. Pinzger Stefan Rass LLMAG 25 83 0 13 Aug 2023
"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models Xinyue Shen Zhenpeng Chen Michael Backes Yun Shen Yang Zhang SILM 40 250 0 07 Aug 2023
Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models Erfan Shayegani Yue Dong Nael B. Abu-Ghazaleh 49 128 0 26 Jul 2023
MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots Gelei Deng Yi Liu Yuekang Li Kailong Wang Ying Zhang Zefeng Li Haoyu Wang Tianwei Zhang Yang Liu SILM 37 118 0 16 Jul 2023
Enhancing Large Language Models Against Inductive Instructions with Dual-critique Prompting Rui Wang Hongru Wang Fei Mi Yi Chen Boyang Xue Kam-Fai Wong Rui-Lan Xu 37 13 0 23 May 2023
A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? Chaoning Zhang Chenshuang Zhang Sheng Zheng Yu Qiao Chenghao Li ... Lik-Hang Lee Yang Yang Heng Tao Shen In So Kweon Choong Seon Hong 85 160 0 21 Mar 2023