Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models

19 June 2025

Papers citing "Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models"

1 / 51 papers shown

Title
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 374 5,872 0 21 Apr 2019