Continuous Embedding Attacks via Clipped Inputs in Jailbreaking Large Language Models

16 July 2024

Yi Liu

Kailong Wang

Papers citing "Continuous Embedding Attacks via Clipped Inputs in Jailbreaking Large Language Models"

2 / 2 papers shown

Title
Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space Leo Schwinn David Dobre Sophie Xhonneux Gauthier Gidel Stephan Gunnemann AAML 72 39 0 14 Feb 2024
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 211 42,038 0 03 Dec 2019