Title
Position: Key Claims in LLM Research Have a Long Tail of Footnotes Anna Rogers A. Luccioni 53 19 0 14 Aug 2023
Predicting is not Understanding: Recognizing and Addressing Underspecification in Machine Learning Damien Teney Maxime Peyrard Ehsan Abbasnejad 38 29 0 06 Jul 2022
Question Generation for Evaluating Cross-Dataset Shifts in Multi-modal Grounding Arjun Reddy Akula OOD 23 3 0 24 Jan 2022
Building Human-like Communicative Intelligence: A Grounded Perspective M. Dubova 29 12 0 02 Jan 2022
MuSiQue: Multihop Questions via Single-hop Question Composition H. Trivedi Niranjan Balasubramanian Tushar Khot Ashish Sabharwal LRM 15 229 0 02 Aug 2021
An Investigation of the (In)effectiveness of Counterfactually Augmented Data Nitish Joshi He He OODD 19 46 0 01 Jul 2021
Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD Generalization Damien Teney Ehsan Abbasnejad Simon Lucey Anton Van Den Hengel 25 87 0 12 May 2021
Evaluating Gender Bias in Natural Language Inference Shanya Sharma Manan Dey Koustuv Sinha 25 41 0 12 May 2021
Can NLI Models Verify QA Systems' Predictions? Jifan Chen Eunsol Choi Greg Durrett 25 54 0 18 Apr 2021
Learning from Task Descriptions Orion Weller Nicholas Lourie Matt Gardner Matthew E. Peters 45 89 0 16 Nov 2020
Concealed Data Poisoning Attacks on NLP Models Eric Wallace Tony Zhao Shi Feng Sameer Singh SILM 19 18 0 23 Oct 2020
Improving Robustness by Augmenting Training Sentences with Predicate-Argument Structures N. Moosavi M. Boer Prasetya Ajie Utama Iryna Gurevych 24 13 0 23 Oct 2020
Improving Compositional Generalization in Semantic Parsing I. Oren Jonathan Herzig Nitish Gupta Matt Gardner Jonathan Berant 26 63 0 12 Oct 2020
Why do you think that? Exploring Faithful Sentence-Level Rationales Without Supervision Max Glockner Ivan Habernal Iryna Gurevych LRM 27 25 0 07 Oct 2020
Easy, Reproducible and Quality-Controlled Data Collection with Crowdaq Qiang Ning Hao Wu Pradeep Dasigi Dheeru Dua Matt Gardner Robert L Logan IV Ana Marasović Zhenjin Nie 28 16 0 06 Oct 2020
On Robustness and Bias Analysis of BERT-based Relation Extraction Luoqiu Li Xiang Chen Hongbin Ye Zhen Bi Shumin Deng Ningyu Zhang Huajun Chen 32 18 0 14 Sep 2020
Aligning AI With Shared Human Values Dan Hendrycks Collin Burns Steven Basart Andrew Critch Jingkai Li D. Song Jacob Steinhardt 43 517 0 05 Aug 2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 37 580 0 10 May 2020
Words aren't enough, their order matters: On the Robustness of Grounding Visual Referring Expressions Arjun Reddy Akula Spandana Gella Yaser Al-Onaizan Song-Chun Zhu Siva Reddy ObjD 20 52 0 04 May 2020
DQI: Measuring Data Quality in NLP Swaroop Mishra Anjana Arunkumar Bhavdeep Singh Sachdeva Chris Bryan Chitta Baral 36 30 0 02 May 2020
UnifiedQA: Crossing Format Boundaries With a Single QA System Daniel Khashabi Sewon Min Tushar Khot Ashish Sabharwal Oyvind Tafjord Peter Clark Hannaneh Hajishirzi 35 719 0 02 May 2020
Experience Grounds Language Yonatan Bisk Ari Holtzman Jesse Thomason Jacob Andreas Yoshua Bengio ... Angeliki Lazaridou Jonathan May Aleksandr Nisnevich Nicolas Pinto Joseph P. Turian 21 351 0 21 Apr 2020
Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets Mor Geva Yoav Goldberg Jonathan Berant 242 320 0 21 Aug 2019
Detecting Local Insights from Global Labels: Supervised & Zero-Shot Sequence Labeling via a Convolutional Decomposition A. Schmaltz 19 8 0 04 Jun 2019
Hypothesis Only Baselines in Natural Language Inference Adam Poliak Jason Naradowsky Aparajita Haldar Rachel Rudinger Benjamin Van Durme 190 576 0 02 May 2018