Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles

20 August 2024

Peng Liu

Papers citing "Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles"

1 / 1 papers shown

Title
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense Yang Ouyang Hengrui Gu Shuhang Lin Wenyue Hua Jie Peng B. Kailkhura Tianlong Chen Kaixiong Zhou Kaixiong Zhou AAML 31 1 0 05 Jan 2025