DQI: Measuring Data Quality in NLP

DQI: Measuring Data Quality in NLP

2 May 2020

Anjana Arunkumar

Bhavdeep Singh Sachdeva

Papers citing "DQI: Measuring Data Quality in NLP"

12 / 12 papers shown

Title
Measuring Diversity in Synthetic Datasets Yuchang Zhu Huizhe Zhang Bingzhe Wu Jintang Li Zibin Zheng Peilin Zhao Liang Chen Yatao Bian 100 0 0 12 Feb 2025
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models Yulei Qin Yuncheng Yang Pengcheng Guo Gang Li Hang Shao Yuchen Shi Zihan Xu Yun Gu Ke Li Xing Sun ALM 90 12 0 31 Dec 2024
ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback Jiacheng Ye Jiahui Gao Jiangtao Feng Zhiyong Wu Tao Yu Lingpeng Kong SyDa VLM 76 72 0 22 Oct 2022
ShortcutLens: A Visual Analytics Approach for Exploring Shortcuts in Natural Language Understanding Dataset Zhihua Jin Xingbo Wang Furui Cheng Chunhui Sun Qun Liu Huamin Qu 32 9 0 17 Aug 2022
NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks Swaroop Mishra Arindam Mitra Neeraj Varshney Bhavdeep Singh Sachdeva Peter Clark Chitta Baral A. Kalyan AIMat ReLM ELM LRM 25 102 0 12 Apr 2022
To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo Yiran Luo Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral 19 4 0 30 Mar 2022
How Robust are Model Rankings: A Leaderboard Customization Approach for Equitable Evaluation Swaroop Mishra Anjana Arunkumar 26 24 0 10 Jun 2021
Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics Swabha Swayamdipta Roy Schwartz Nicholas Lourie Yizhong Wang Hannaneh Hajishirzi Noah A. Smith Yejin Choi 30 429 0 22 Sep 2020
Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets Mor Geva Yoav Goldberg Jonathan Berant 242 320 0 21 Aug 2019
Language GANs Falling Short Massimo Caccia Lucas Caccia W. Fedus Hugo Larochelle Joelle Pineau Laurent Charlin 121 215 0 06 Nov 2018
Hypothesis Only Baselines in Natural Language Inference Adam Poliak Jason Naradowsky Aparajita Haldar Rachel Rudinger Benjamin Van Durme 190 576 0 02 May 2018
Split and Rephrase: Better Evaluation and a Stronger Baseline Roee Aharoni Yoav Goldberg MoE 223 45 0 02 May 2018