Interpretability and Transparency-Driven Detection and Transformation of Textual Adversarial Examples (IT-DT)

3 July 2023

Papers citing "Interpretability and Transparency-Driven Detection and Transformation of Textual Adversarial Examples (IT-DT)"

2 / 2 papers shown

Title
Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming Rui Li Peiyi Wang Jingyuan Ma Di Zhang Lei Sha Zhifang Sui LLMAG 46 0 0 22 Feb 2025
Enhancing adversarial robustness in Natural Language Inference using explanations Alexandros Koulakos Maria Lymperaiou Giorgos Filandrianos Giorgos Stamou SILM AAML 40 0 0 11 Sep 2024