v1v2 (latest)

Combining Feature and Instance Attribution to Detect Artifacts

1 July 2021

Papers citing "Combining Feature and Instance Attribution to Detect Artifacts"

29 / 29 papers shown

Title
Influence Tuning: Demoting Spurious Correlations via Instance Attribution and Instance-Driven Updates Xiaochuang Han Yulia Tsvetkov TDI 89 31 0 07 Oct 2021
Do Feature Attribution Methods Correctly Attribute Features? Yilun Zhou Serena Booth Marco Tulio Ribeiro J. Shah FAtt XAI 84 135 0 27 Apr 2021
Competency Problems: On Finding and Removing Artifacts in Language Data Matt Gardner William Merrill Jesse Dodge Matthew E. Peters Alexis Ross Sameer Singh Noah A. Smith 203 111 0 17 Apr 2021
An Empirical Comparison of Instance Attribution Methods for NLP Pouya Pezeshkpour Sarthak Jain Byron C. Wallace Sameer Singh TDI 104 35 0 09 Apr 2021
Explaining NLP Models via Minimal Contrastive Editing (MiCE) Alexis Ross Ana Marasović Matthew E. Peters 71 122 0 27 Dec 2020
Explaining and Improving Model Behavior with k Nearest Neighbor Representations Nazneen Rajani Ben Krause Wengpeng Yin Tong Niu R. Socher Caiming Xiong FAtt 51 33 0 18 Oct 2020
A Diagnostic Study of Explainability Techniques for Text Classification Pepa Atanasova J. Simonsen Christina Lioma Isabelle Augenstein XAI FAtt 81 224 0 25 Sep 2020
Influence Functions in Deep Learning Are Fragile S. Basu Phillip E. Pope Soheil Feizi TDI 125 235 0 25 Jun 2020
Explaining Black Box Predictions and Unveiling Data Artifacts through Influence Functions Xiaochuang Han Byron C. Wallace Yulia Tsvetkov MILM FAtt AAML TDI 77 174 0 14 May 2020
RelatIF: Identifying Explanatory Training Examples via Relative Influence Elnaz Barshan Marc-Etienne Brunet Gintare Karolina Dziugaite TDI 125 30 0 25 Mar 2020
BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions Christopher Clark Kenton Lee Ming-Wei Chang Tom Kwiatkowski Michael Collins Kristina Toutanova 227 1,527 0 24 May 2019
SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems Alex Jinpeng Wang Yada Pruksachatkun Nikita Nangia Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 274 2,315 0 02 May 2019
KBQA: Learning Question Answering over QA Corpora and Knowledge Bases Wanyun Cui Yanghua Xiao Haixun Wang Yangqiu Song Seung-won Hwang Wei Wang 47 256 0 06 Mar 2019
Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference R. Thomas McCoy Ellie Pavlick Tal Linzen 134 1,239 0 04 Feb 2019
Representer Point Selection for Explaining Deep Neural Networks Chih-Kuan Yeh Joon Sik Kim Ian En-Hsu Yen Pradeep Ravikumar TDI 76 253 0 23 Nov 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.8K 94,891 0 11 Oct 2018
Sanity Checks for Saliency Maps Julius Adebayo Justin Gilmer M. Muelly Ian Goodfellow Moritz Hardt Been Kim FAtt AAML XAI 139 1,967 0 08 Oct 2018
Stress Test Evaluation for Natural Language Inference Aakanksha Naik Abhilasha Ravichander Norman M. Sadeh Carolyn Rose Graham Neubig ELM 75 377 0 02 Jun 2018
Behavior Analysis of NLI Models: Uncovering the Influence of Three Factors on Robustness V. Carmona Jeff Mitchell Sebastian Riedel 60 44 0 11 May 2018
Annotation Artifacts in Natural Language Inference Data Suchin Gururangan Swabha Swayamdipta Omer Levy Roy Schwartz Samuel R. Bowman Noah A. Smith 150 1,176 0 06 Mar 2018
The (Un)reliability of saliency methods Pieter-Jan Kindermans Sara Hooker Julius Adebayo Maximilian Alber Kristof T. Schütt Sven Dähne D. Erhan Been Kim FAtt XAI 101 685 0 02 Nov 2017
A Unified Approach to Interpreting Model Predictions Scott M. Lundberg Su-In Lee FAtt 1.1K 21,939 0 22 May 2017
A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference Adina Williams Nikita Nangia Samuel R. Bowman 524 4,479 0 18 Apr 2017
Understanding Black-box Predictions via Influence Functions Pang Wei Koh Percy Liang TDI 213 2,894 0 14 Mar 2017
Automated Hate Speech Detection and the Problem of Offensive Language Thomas Davidson Dana Warmsley M. Macy Ingmar Weber 76 2,688 0 11 Mar 2017
Axiomatic Attribution for Deep Networks Mukund Sundararajan Ankur Taly Qiqi Yan OOD FAtt 188 5,989 0 04 Mar 2017
Demographic Dialectal Variation in Social Media: A Case Study of African-American English Su Lin Blodgett Lisa Green Brendan O'Connor 93 354 0 31 Aug 2016
"Why Should I Trust You?": Explaining the Predictions of Any Classifier Marco Tulio Ribeiro Sameer Singh Carlos Guestrin FAtt FaML 1.2K 16,990 0 16 Feb 2016
A large annotated corpus for learning natural language inference Samuel R. Bowman Gabor Angeli Christopher Potts Christopher D. Manning 321 4,287 0 21 Aug 2015