Improving Model Evaluation using SMART Filtering of Benchmark Datasets

Improving Model Evaluation using SMART Filtering of Benchmark Datasets

26 October 2024

Papers citing "Improving Model Evaluation using SMART Filtering of Benchmark Datasets"

10 / 60 papers shown

Title
Aligning AI With Shared Human Values Dan Hendrycks Collin Burns Steven Basart Andrew Critch Jingkai Li D. Song Jacob Steinhardt 137 548 0 05 Aug 2020
ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT Omar Khattab Matei A. Zaharia 117 1,356 0 27 Apr 2020
Adversarial Filters of Dataset Biases Ronan Le Bras Swabha Swayamdipta Chandra Bhagavatula Rowan Zellers Matthew E. Peters Ashish Sabharwal Yejin Choi 92 222 0 10 Feb 2020
Assessing the Benchmarking Capacity of Machine Reading Comprehension Datasets Saku Sugawara Pontus Stenetorp Kentaro Inui Akiko Aizawa 35 86 0 21 Nov 2019
Adversarial NLI: A New Benchmark for Natural Language Understanding Yixin Nie Adina Williams Emily Dinan Joey Tianyi Zhou Jason Weston Douwe Kiela 115 1,003 0 31 Oct 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.1K 12,129 0 27 Aug 2019
Build it Break it Fix it for Dialogue Safety: Robustness from Adversarial Human Attack Emily Dinan Samuel Humeau Bharath Chintagunta Jason Weston 73 244 0 17 Aug 2019
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge Alon Talmor Jonathan Herzig Nicholas Lourie Jonathan Berant RALM 140 1,716 0 02 Nov 2018
Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge Peter Clark Isaac Cowhey Oren Etzioni Tushar Khot Ashish Sabharwal Carissa Schoenick Oyvind Tafjord ELM RALM LRM 146 2,567 0 14 Mar 2018
Annotation Artifacts in Natural Language Inference Data Suchin Gururangan Swabha Swayamdipta Omer Levy Roy Schwartz Samuel R. Bowman Noah A. Smith 134 1,175 0 06 Mar 2018