Prefix Guidance: A Steering Wheel for Large Language Models to Defend
Against Jailbreak Attacks

v1v2 (latest)

Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks

15 August 2024

Weiming Zhang

ArXiv (abs)PDF HTML Github (3★)

Papers citing "Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks"

7 / 7 papers shown

Title
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models Haoran Gu Handing Wang Yi Mei Mengjie Zhang Yaochu Jin 57 0 0 12 May 2025
SQL Injection Jailbreak: A Structural Disaster of Large Language Models Jiawei Zhao Kejiang Chen Weinan Zhang Nenghai Yu AAML 107 0 0 03 Nov 2024
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations Hakan Inan Kartikeya Upasani Jianfeng Chi Rashi Rungta Krithika Iyer ... Michael Tontchev Qing Hu Brian Fuller Davide Testuggine Madian Khabsa AI4MH 163 459 0 07 Dec 2023
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks Alexander Robey Eric Wong Hamed Hassani George J. Pappas AAML 120 255 0 05 Oct 2023
Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability of Large Language Model Code Generation Li Zhong Zilong Wang ELM SILM 89 74 0 20 Aug 2023
Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou Zifan Wang Nicholas Carlini Milad Nasr J. Zico Kolter Matt Fredrikson 293 1,508 0 27 Jul 2023
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 677 24,541 0 26 Jul 2019

We use cookies and other tracking technologies to improve your browsing experience on our website, to show you personalized content and targeted ads, to analyze our website traffic, and to understand where our visitors are coming from. See our policy.