Towards White Box Deep Learning

14 March 2024

Papers citing "Towards White Box Deep Learning"

16 / 16 papers shown

Title
Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou Zifan Wang Nicholas Carlini Milad Nasr J. Zico Kolter Matt Fredrikson 163 1,376 0 27 Jul 2023
Understanding Robust Overfitting of Adversarial Training and Beyond Chaojian Yu Bo Han Li Shen Jun Yu Chen Gong Biwei Huang Tongliang Liu OOD 45 58 0 17 Jun 2022
Analysis and Applications of Class-wise Robustness in Adversarial Training Qi Tian Kun Kuang Ke Jiang Leilei Gan Yisen Wang AAML 47 46 0 29 May 2021
Adversarial Attacks for Tabular Data: Application to Fraud Detection and Imbalanced Data F. Cartella Orlando Anunciação Yuki Funabiki D. Yamaguchi Toru Akishita Olivier Elshocht AAML 92 72 0 20 Jan 2021
Shortcut Learning in Deep Neural Networks Robert Geirhos J. Jacobsen Claudio Michaelis R. Zemel Wieland Brendel Matthias Bethge Felix Wichmann 188 2,023 0 16 Apr 2020
Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks Francesco Croce Matthias Hein AAML 196 1,821 0 03 Mar 2020
Overfitting in adversarially robust deep learning Leslie Rice Eric Wong Zico Kolter 73 796 0 26 Feb 2020
Adversarial Policies: Attacking Deep Reinforcement Learning Adam Gleave Michael Dennis Cody Wild Neel Kant Sergey Levine Stuart J. Russell AAML 69 350 0 25 May 2019
Adversarial Examples Are Not Bugs, They Are Features Andrew Ilyas Shibani Santurkar Dimitris Tsipras Logan Engstrom Brandon Tran Aleksander Madry SILM 80 1,825 0 06 May 2019
On Evaluating Adversarial Robustness Nicholas Carlini Anish Athalye Nicolas Papernot Wieland Brendel Jonas Rauber Dimitris Tsipras Ian Goodfellow Aleksander Madry Alexey Kurakin ELM AAML 68 899 0 18 Feb 2019
Towards Robust Interpretability with Self-Explaining Neural Networks David Alvarez-Melis Tommi Jaakkola MILM XAI 105 938 0 20 Jun 2018
Towards Fast Computation of Certified Robustness for ReLU Networks Tsui-Wei Weng Huan Zhang Hongge Chen Zhao Song Cho-Jui Hsieh Duane S. Boning Inderjit S. Dhillon Luca Daniel AAML 76 689 0 25 Apr 2018
Audio Adversarial Examples: Targeted Attacks on Speech-to-Text Nicholas Carlini D. Wagner AAML 71 1,076 0 05 Jan 2018
Dynamic Routing Between Capsules S. Sabour Nicholas Frosst Geoffrey E. Hinton 107 4,584 0 26 Oct 2017
Adversarial Examples for Semantic Segmentation and Object Detection Cihang Xie Jianyu Wang Zhishuai Zhang Yuyin Zhou Lingxi Xie Alan Yuille GAN AAML 85 928 0 24 Mar 2017
Intriguing properties of neural networks Christian Szegedy Wojciech Zaremba Ilya Sutskever Joan Bruna D. Erhan Ian Goodfellow Rob Fergus AAML 185 14,831 1 21 Dec 2013