Robust LLM safeguarding via refusal feature adversarial training

30 September 2024

Papers citing "Robust LLM safeguarding via refusal feature adversarial training"

2 / 52 papers shown

Title
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 682 131,414 0 12 Jun 2017
Explaining and Harnessing Adversarial Examples Ian Goodfellow Jonathon Shlens Christian Szegedy AAML GAN 271 19,045 0 20 Dec 2014