Adversarial Text Purification: A Large Language Model Approach for
Defense

Adversarial Text Purification: A Large Language Model Approach for Defense

5 February 2024

Shubh Khandelwal

Amrita Bhattacharjee

Huan Liu

Papers citing "Adversarial Text Purification: A Large Language Model Approach for Defense"

18 / 18 papers shown

Title
Tougher Text, Smarter Models: Raising the Bar for Adversarial Defence Benchmarks Yang Wang Chenghua Lin ELM 170 0 0 05 Jan 2025
ExpertPrompting: Instructing Large Language Models to be Distinguished Experts Benfeng Xu An Yang Junyang Lin Quang Wang Chang Zhou Yongdong Zhang Zhendong Mao ALM 87 139 0 24 May 2023
A Study of Generative Large Language Model for Medical Research and Healthcare C.A.I. Peng Xi Yang Aokun Chen Kaleb E. Smith Nima M. Pournejatian ... W. Hogan E. Shenkman Yi Guo Jiang Bian Yonghui Wu LM&MA ELM AI4MH 175 263 0 22 May 2023
Diffusion Models for Adversarial Purification Weili Nie Brandon Guo Yujia Huang Chaowei Xiao Arash Vahdat Anima Anandkumar WIGM 257 441 0 16 May 2022
Text Adversarial Purification as Defense against Adversarial Attacks Linyang Li Demin Song Xipeng Qiu AAML 34 16 0 27 Mar 2022
A Survey of Adversarial Defences and Robustness in NLP Shreyansh Goyal Sumanth Doddapaneni Mitesh M.Khapra B. Ravindran AAML 67 30 0 12 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 874 12,916 0 04 Mar 2022
Searching for an Effective Defender: Benchmarking Defense against Adversarial Word Substitution Zongyi Li Jianhan Xu Jiehang Zeng Linyang Li Xiaoqing Zheng Qi Zhang Kai-Wei Chang Cho-Jui Hsieh AAML 41 74 0 29 Aug 2021
Adversarial purification with Score-based generative models Jongmin Yoon Sung Ju Hwang Juho Lee DiffM 84 156 0 11 Jun 2021
Score-Based Generative Modeling through Stochastic Differential Equations Yang Song Jascha Narain Sohl-Dickstein Diederik P. Kingma Abhishek Kumar Stefano Ermon Ben Poole DiffM SyDa 330 6,453 0 26 Nov 2020
FreeLB: Enhanced Adversarial Training for Natural Language Understanding Chen Zhu Yu Cheng Zhe Gan S. Sun Tom Goldstein Jingjing Liu AAML 263 442 0 25 Sep 2019
Certified Robustness to Adversarial Word Substitutions Robin Jia Aditi Raghunathan Kerem Göksel Percy Liang AAML 335 294 0 03 Sep 2019
Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment Di Jin Zhijing Jin Qiufeng Wang Peter Szolovits SILM AAML 174 1,077 0 27 Jul 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 633 24,431 0 26 Jul 2019
Robust Neural Machine Translation with Doubly Adversarial Inputs Yong Cheng Lu Jiang Wolfgang Macherey AAML 59 255 0 06 Jun 2019
Defense-GAN: Protecting Classifiers Against Adversarial Attacks Using Generative Models Pouya Samangouei Maya Kabkab Rama Chellappa AAML GAN 84 1,177 0 17 May 2018
Generating Natural Language Adversarial Examples M. Alzantot Yash Sharma Ahmed Elgohary Bo-Jhang Ho Mani B. Srivastava Kai-Wei Chang AAML 412 930 0 21 Apr 2018
Towards Deep Learning Models Resistant to Adversarial Attacks Aleksander Madry Aleksandar Makelov Ludwig Schmidt Dimitris Tsipras Adrian Vladu SILM OOD 304 12,063 0 19 Jun 2017