Achieving Verified Robustness to Symbol Substitutions via Interval Bound Propagation

3 September 2019

Krishnamurthy Dvijotham

Pushmeet Kohli

AAML

ArXiv PDF HTML

Papers citing "Achieving Verified Robustness to Symbol Substitutions via Interval Bound Propagation"

50 / 53 papers shown

Title
CERT-ED: Certifiably Robust Text Classification for Edit Distance Zhuoqun Huang Yipeng Wang Seunghee Shin Benjamin I. P. Rubinstein AAML 56 1 0 01 Aug 2024
The Trickle-down Impact of Reward (In-)consistency on RLHF Lingfeng Shen Sihao Chen Linfeng Song Lifeng Jin Baolin Peng Haitao Mi Daniel Khashabi Dong Yu 40 21 0 28 Sep 2023
Certifying LLM Safety against Adversarial Prompting Aounon Kumar Chirag Agarwal Suraj Srinivas Aaron Jiaxun Li S. Feizi Himabindu Lakkaraju AAML 27 167 0 06 Sep 2023
Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks Xinyu Zhang Hanbin Hong Yuan Hong Peng Huang Binghui Wang Zhongjie Ba Kui Ren SILM 44 18 0 31 Jul 2023
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework Yangyi Chen Hongcheng Gao Ganqu Cui Lifan Yuan Dehan Kong ... Longtao Huang H. Xue Zhiyuan Liu Maosong Sun Heng Ji AAML ELM 33 6 0 29 May 2023
A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation Xiaowei Huang Wenjie Ruan Wei Huang Gao Jin Yizhen Dong ... Sihao Wu Peipei Xu Dengyu Wu André Freitas Mustafa A. Mustafa ALM 45 83 0 19 May 2023
Provable Robustness for Streaming Models with a Sliding Window Aounon Kumar Vinu Sankar Sadasivan S. Feizi OOD AAML AI4TS 19 1 0 28 Mar 2023
TextShield: Beyond Successfully Detecting Adversarial Sentences in Text Classification Lingfeng Shen Ze Zhang Haiyun Jiang Ying-Cong Chen AAML 41 5 0 03 Feb 2023
REaaS: Enabling Adversarially Robust Downstream Classifiers via Robust Encoder as a Service Wenjie Qu Jinyuan Jia Neil Zhenqiang Gong SILM AAML 34 4 0 07 Jan 2023
Impact of Adversarial Training on Robustness and Generalizability of Language Models Enes Altinisik Hassan Sajjad Husrev Taha Sencar Safa Messaoud Sanjay Chawla AAML 24 8 0 10 Nov 2022
Textual Manifold-based Defense Against Natural Language Adversarial Examples D. M. Nguyen Anh Tuan Luu AAML 27 17 0 05 Nov 2022
Emergent Linguistic Structures in Neural Networks are Fragile Emanuele La Malfa Matthew Wicker Marta Kiatkowska 22 1 0 31 Oct 2022
ADDMU: Detection of Far-Boundary Adversarial Examples with Data and Model Uncertainty Estimation Fan Yin Yao Li Cho-Jui Hsieh Kai-Wei Chang AAML 69 4 0 22 Oct 2022
TCAB: A Large-Scale Text Classification Attack Benchmark Kalyani Asthana Zhouhang Xie Wencong You Adam Noack Jonathan Brophy Sameer Singh Daniel Lowd 39 3 0 21 Oct 2022
Identifying Human Strategies for Generating Word-Level Adversarial Examples Maximilian Mozes Bennett Kleinberg Lewis D. Griffin AAML 33 1 0 20 Oct 2022
Why Should Adversarial Perturbations be Imperceptible? Rethink the Research Paradigm in Adversarial NLP Yangyi Chen Hongcheng Gao Ganqu Cui Fanchao Qi Longtao Huang Zhiyuan Liu Maosong Sun SILM 25 45 0 19 Oct 2022
On the tightness of linear relaxation based robustness certification methods Cheng Tang AAML 44 0 0 01 Oct 2022
Rethinking Textual Adversarial Defense for Pre-trained Language Models Jiayi Wang Rongzhou Bao Zhuosheng Zhang Hai Zhao AAML SILM 28 11 0 21 Jul 2022
Adversarial Training for Improving Model Robustness? Look at Both Prediction and Interpretation Hanjie Chen Yangfeng Ji OOD AAML VLM 32 21 0 23 Mar 2022
Distinguishing Non-natural from Natural Adversarial Samples for More Robust Pre-trained Language Model Jiayi Wang Rongzhou Bao Zhuosheng Zhang Hai Zhao AAML 29 4 0 19 Mar 2022
Competition-Level Code Generation with AlphaCode Yujia Li David Choi Junyoung Chung Nate Kushman Julian Schrittwieser ... Esme Sutherland Robson Pushmeet Kohli Nando de Koray Kavukcuoglu Oriol Vinyals 26 1,302 0 08 Feb 2022
Certifying Model Accuracy under Distribution Shifts Aounon Kumar Alexander Levine Tom Goldstein S. Feizi OOD 27 7 0 28 Jan 2022
Identifying Adversarial Attacks on Text Classifiers Zhouhang Xie Jonathan Brophy Adam Noack Wencong You Kalyani Asthana Carter Perkins Sabrina Reis Sameer Singh Daniel Lowd AAML 31 9 0 21 Jan 2022
Robust Natural Language Processing: Recent Advances, Challenges, and Future Directions Marwan Omar Soohyeon Choi Daehun Nyang David A. Mohaisen 32 57 0 03 Jan 2022
How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial Robustness? Xinhsuai Dong Anh Tuan Luu Min Lin Shuicheng Yan Hanwang Zhang SILM AAML 20 55 0 22 Dec 2021
The King is Naked: on the Notion of Robustness for Natural Language Processing Emanuele La Malfa Marta Z. Kwiatkowska 20 28 0 13 Dec 2021
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models Wei Ping Chejian Xu Shuohang Wang Zhe Gan Yu Cheng Jianfeng Gao Ahmed Hassan Awadallah Yangqiu Song VLM ELM AAML 33 215 0 04 Nov 2021
BERT is Robust! A Case Against Synonym-Based Adversarial Examples in Text Classification J. Hauser Zhao Meng Damian Pascual Roger Wattenhofer OOD SILM AAML 193 14 0 15 Sep 2021
Detecting Textual Adversarial Examples through Randomized Substitution and Vote Xiaosen Wang Yifeng Xiong Kun He AAML 27 11 0 13 Sep 2021
Searching for an Effective Defender: Benchmarking Defense against Adversarial Word Substitution Zongyi Li Jianhan Xu Jiehang Zeng Linyang Li Xiaoqing Zheng Qi Zhang Kai-Wei Chang Cho-Jui Hsieh AAML 8 74 0 29 Aug 2021
Towards Robustness Against Natural Language Word Substitutions Xinshuai Dong A. Luu Rongrong Ji Hong Liu SILM AAML 38 113 0 28 Jul 2021
Policy Smoothing for Provably Robust Reinforcement Learning Aounon Kumar Alexander Levine S. Feizi AAML 20 56 0 21 Jun 2021
On Guaranteed Optimal Robust Explanations for NLP Models Emanuele La Malfa A. Zbrzezny Rhiannon Michelmore Nicola Paoletti Marta Z. Kwiatkowska FAtt 19 47 0 08 May 2021
On the Sensitivity and Stability of Model Interpretations in NLP Fan Yin Zhouxing Shi Cho-Jui Hsieh Kai-Wei Chang FAtt 19 33 0 18 Apr 2021
Grey-box Adversarial Attack And Defence For Sentiment Classification Ying Xu Xu Zhong Antonio Jimeno Yepes Jey Han Lau VLM AAML 16 53 0 22 Mar 2021
Adversarial Training is Not Ready for Robot Learning Mathias Lechner Ramin Hasani Radu Grosu Daniela Rus T. Henzinger AAML 38 34 0 15 Mar 2021
How Robust are Randomized Smoothing based Defenses to Data Poisoning? Akshay Mehra B. Kailkhura Pin-Yu Chen Jihun Hamm OOD AAML 20 32 0 02 Dec 2020
Counterfactual Variable Control for Robust and Interpretable Question Answering S. Yu Yulei Niu Shuohang Wang Jing Jiang Qianru Sun AAML OOD 42 9 0 12 Oct 2020
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective Wei Ping Shuohang Wang Yu Cheng Zhe Gan R. Jia Bo-wen Li Jingjing Liu AAML 46 113 0 05 Oct 2020
Certifying Confidence via Randomized Smoothing Aounon Kumar Alexander Levine S. Feizi Tom Goldstein UQCV 33 39 0 17 Sep 2020
Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood Ensemble Yi Zhou Xiaoqing Zheng Cho-Jui Hsieh Kai-Wei Chang Xuanjing Huang SILM 39 48 0 20 Jun 2020
Robust Encodings: A Framework for Combating Adversarial Typos Erik Jones Robin Jia Aditi Raghunathan Percy Liang AAML 142 102 0 04 May 2020
Imitation Attacks and Defenses for Black-box Machine Translation Systems Eric Wallace Mitchell Stern D. Song AAML 22 119 0 30 Apr 2020
Mind Your Inflections! Improving NLP for Non-Standard Englishes with Base-Inflection Encoding Samson Tan Chenyu You L. Varshney Min-Yen Kan 17 34 0 30 Apr 2020
Reevaluating Adversarial Examples in Natural Language John X. Morris Eli Lifland Jack Lanchantin Yangfeng Ji Yanjun Qi SILM AAML 20 111 0 25 Apr 2020
Frequency-Guided Word Substitutions for Detecting Textual Adversarial Examples Maximilian Mozes Pontus Stenetorp Bennett Kleinberg Lewis D. Griffin AAML 30 99 0 13 Apr 2020
Identifying Critical Neurons in ANN Architectures using Mixed Integer Programming M. Elaraby Guy Wolf Margarida Carvalho 26 5 0 17 Feb 2020
Robustness Verification for Transformers Zhouxing Shi Huan Zhang Kai-Wei Chang Minlie Huang Cho-Jui Hsieh AAML 24 105 0 16 Feb 2020
Adversarial Robustness for Code Pavol Bielik Martin Vechev AAML 22 89 0 11 Feb 2020
Semantic Robustness of Models of Source Code Goutham Ramakrishnan Jordan Henkel Zi Wang Aws Albarghouthi S. Jha Thomas W. Reps SILM AAML 41 97 0 07 Feb 2020