Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

21 May 2025

Papers citing "Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval"

3 / 3 papers shown

Title
ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs Zeming Wei Chengcan Wu Meng Sun 57 0 0 02 Jun 2025
Understanding Pre-training and Fine-tuning from Loss Landscape Perspectives Huanran Chen Yinpeng Dong Zeming Wei Yao Huang Yichi Zhang Hang Su Jun Zhu MoMe 92 1 0 23 May 2025
RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models Bang An Shiyue Zhang Mark Dredze 156 5 0 25 Apr 2025