No Free Lunch for Defending Against Prefilling Attack by In-Context Learning

13 December 2024

Papers citing "No Free Lunch for Defending Against Prefilling Attack by In-Context Learning"

1 / 1 papers shown

Title
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Tinghao Xie Xiangyu Qi Yi Zeng Yangsibo Huang Udari Madhushani Sehwag ... Bo Li Kai Li Danqi Chen Peter Henderson Prateek Mittal ALM ELM 191 79 0 20 Jun 2024