Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks

15 August 2024

Weiming Zhang

Papers citing "Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks"

2 / 2 papers shown

Title
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models Haoran Gu Handing Wang Yi Mei Mengjie Zhang Yaochu Jin 27 0 0 12 May 2025
SQL Injection Jailbreak: A Structural Disaster of Large Language Models Jiawei Zhao Kejiang Chen Wenqi Zhang Nenghai Yu AAML 40 0 0 03 Nov 2024