Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models

27 August 2024

Papers citing "Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models"

3 / 3 papers shown

Title
On Calibration of LLM-based Guard Models for Reliable Content Moderation Hongfu Liu Hengguan Huang Hao Wang Xiangming Gu Ye Wang 185 4 0 14 Oct 2024
Don't Say No: Jailbreaking LLM by Suppressing Refusal Yukai Zhou Jian Lou Zhijie Huang Zhan Qin Yibei Yang Wenjie Wang AAML 116 19 0 25 Apr 2024
Hijacking Large Language Models via Adversarial In-Context Learning Yao Qiang Xiangyu Zhou Saleh Zare Zade Prashant Khanduri Dongxiao Zhu 116 35 0 16 Nov 2023