A Proposal to Study "Is High Quality Data All We Need?"

12 March 2022

Papers citing "A Proposal to Study "Is High Quality Data All We Need?""

21 / 21 papers shown

Title
How Robust are Model Rankings: A Leaderboard Customization Approach for Equitable Evaluation Swaroop Mishra Anjana Arunkumar 65 26 0 10 Jun 2021
Our Evaluation Metric Needs an Update to Encourage Generalization Swaroop Mishra Anjana Arunkumar Chris Bryan Chitta Baral 60 16 0 14 Jul 2020
DQI: Measuring Data Quality in NLP Swaroop Mishra Anjana Arunkumar Bhavdeep Singh Sachdeva Chris Bryan Chitta Baral 116 32 0 02 May 2020
Pretrained Transformers Improve Out-of-Distribution Robustness Dan Hendrycks Xiaoyuan Liu Eric Wallace Adam Dziedzic R. Krishnan Basel Alomair OOD 193 434 0 13 Apr 2020
Adversarial Filters of Dataset Biases Ronan Le Bras Swabha Swayamdipta Chandra Bhagavatula Rowan Zellers Matthew E. Peters Ashish Sabharwal Yejin Choi 103 222 0 10 Feb 2020
Adversarial NLI: A New Benchmark for Natural Language Understanding Yixin Nie Adina Williams Emily Dinan Joey Tianyi Zhou Jason Weston Douwe Kiela 125 1,006 0 31 Oct 2019
Learning the Difference that Makes a Difference with Counterfactually-Augmented Data Divyansh Kaushik Eduard H. Hovy Zachary Chase Lipton CML 91 569 0 26 Sep 2019
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases Christopher Clark Mark Yatskar Luke Zettlemoyer OOD 76 465 0 09 Sep 2019
Investigating Biases in Textual Entailment Datasets Shawn Tan Songlin Yang Chin-Wei Huang Aaron Courville 49 8 0 23 Jun 2019
REPAIR: Removing Representation Bias by Dataset Resampling Yi Li Nuno Vasconcelos FaML 73 287 0 16 Apr 2019
Dataset Distillation Tongzhou Wang Jun-Yan Zhu Antonio Torralba Alexei A. Efros DD 78 295 0 27 Nov 2018
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering Zhilin Yang Peng Qi Saizheng Zhang Yoshua Bengio William W. Cohen Ruslan Salakhutdinov Christopher D. Manning RALM 180 2,655 0 25 Sep 2018
Hypothesis Only Baselines in Natural Language Inference Adam Poliak Jason Naradowsky Aparajita Haldar Rachel Rudinger Benjamin Van Durme 234 579 0 02 May 2018
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 1.1K 7,182 0 20 Apr 2018
Annotation Artifacts in Natural Language Inference Data Suchin Gururangan Swabha Swayamdipta Omer Levy Roy Schwartz Samuel R. Bowman Noah A. Smith 150 1,176 0 06 Mar 2018
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension Mandar Joshi Eunsol Choi Daniel S. Weld Luke Zettlemoyer RALM 207 2,676 0 09 May 2017
A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference Adina Williams Nikita Nangia Samuel R. Bowman 524 4,479 0 18 Apr 2017
SearchQA: A New Q&A Dataset Augmented with Context from a Search Engine Matthew Dunn Levent Sagun Mike Higgins V. U. Güney Volkan Cirik Kyunghyun Cho RALM 98 456 0 18 Apr 2017
NewsQA: A Machine Comprehension Dataset Adam Trischler Tong Wang Xingdi Yuan Justin Harris Alessandro Sordoni Philip Bachman Kaheer Suleman 103 893 0 29 Nov 2016
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 286 8,134 0 16 Jun 2016
A large annotated corpus for learning natural language inference Samuel R. Bowman Gabor Angeli Christopher Potts Christopher D. Manning 321 4,287 0 21 Aug 2015