Question and Answer Test-Train Overlap in Open-Domain Question Answering Datasets

6 August 2020

Patrick Lewis

Papers citing "Question and Answer Test-Train Overlap in Open-Domain Question Answering Datasets"

32 / 132 papers shown

Title
MuSiQue: Multihop Questions via Single-hop Question Composition H. Trivedi Niranjan Balasubramanian Tushar Khot Ashish Sabharwal LRM 29 230 0 02 Aug 2021
Time-Aware Language Models as Temporal Knowledge Bases Bhuwan Dhingra Jeremy R. Cole Julian Martin Eisenschlos D. Gillick Jacob Eisenstein William W. Cohen KELM 30 265 0 29 Jun 2021
Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on Spoken Language Understanding Siddhant Arora Alissa Ostapenko Vijay Viswanathan Siddharth Dalmia Florian Metze Shinji Watanabe A. Black ELM 25 13 0 29 Jun 2021
How Robust are Model Rankings: A Leaderboard Customization Approach for Equitable Evaluation Swaroop Mishra Anjana Arunkumar 34 24 0 10 Jun 2021
Can Generative Pre-trained Language Models Serve as Knowledge Bases for Closed-book QA? Cunxiang Wang Pai Liu Yue Zhang RALM 42 80 0 03 Jun 2021
Question Answering Over Temporal Knowledge Graphs Apoorv Saxena Soumen Chakrabarti Partha P. Talukdar AI4MH 16 131 0 03 Jun 2021
Changing the World by Changing the Data Anna Rogers 24 71 0 28 May 2021
Dynaboard: An Evaluation-As-A-Service Platform for Holistic Next-Generation Benchmarking Zhiyi Ma Kawin Ethayarajh Tristan Thrush Somya Jain Ledell Yu Wu Robin Jia Christopher Potts Adina Williams Douwe Kiela ELM 35 57 0 21 May 2021
Do Natural Language Explanations Represent Valid Logical Arguments? Verifying Entailment in Explainable NLI Gold Standards Marco Valentino Ian Pratt-Hartman André Freitas XAI LRM 23 12 0 05 May 2021
GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval Timo Moller Julian Risch M. Pietsch 23 53 0 26 Apr 2021
Hidden Biases in Unreliable News Detection Datasets Xiang Zhou Heba Elfardy Christos Christodoulopoulos Thomas Butler Joey Tianyi Zhou 22 15 0 20 Apr 2021
Case-based Reasoning for Natural Language Queries over Knowledge Bases Rajarshi Das Manzil Zaheer Dung Ngoc Thai Ameya Godbole Ethan Perez Jay Yoon Lee Lizhen Tan L. Polymenakos Andrew McCallum 36 163 0 18 Apr 2021
GooAQ: Open Question Answering with Diverse Answer Types Daniel Khashabi Amos Ng Tushar Khot Ashish Sabharwal Hannaneh Hajishirzi Chris Callison-Burch 22 50 0 18 Apr 2021
Improving Question Answering Model Robustness with Synthetic Adversarial Data Generation Max Bartolo Tristan Thrush Robin Jia Sebastian Riedel Pontus Stenetorp Douwe Kiela AAML 28 103 0 18 Apr 2021
Towards Robust Neural Retrieval Models with Synthetic Pre-Training Revanth Reddy Gangi Reddy Vikas Yadav Md Arafat Sultan M. Franz Vittorio Castelli Heng Ji Avirup Sil 26 14 0 15 Apr 2021
Relational World Knowledge Representation in Contextual Language Models: A Review Tara Safavi Danai Koutra KELM 38 51 0 12 Apr 2021
Dynabench: Rethinking Benchmarking in NLP Douwe Kiela Max Bartolo Yixin Nie Divyansh Kaushik Atticus Geiger ... Pontus Stenetorp Robin Jia Joey Tianyi Zhou Christopher Potts Adina Williams 24 391 0 07 Apr 2021
What's the best place for an AI conference, Vancouver or ______: Why completing comparative questions is difficult Avishai Zagoury Einat Minkov Idan Szpektor William W. Cohen ELM 35 6 0 05 Apr 2021
FeTaQA: Free-form Table Question Answering Linyong Nan Chia-Hsuan Hsieh Ziming Mao Xi Lin Neha Verma ... Isabel Trindade Renusree Bandaru Jacob Cunningham Caiming Xiong Dragomir R. Radev LMTD 22 144 0 01 Apr 2021
Hurdles to Progress in Long-form Question Answering Kalpesh Krishna Aurko Roy Mohit Iyyer 25 193 0 10 Mar 2021
Cryptonite: A Cryptic Crossword Benchmark for Extreme Ambiguity in Language Avia Efrat Uri Shaham D. Kilman Omer Levy ELM 14 17 0 01 Mar 2021
PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them Patrick Lewis Yuxiang Wu Linqing Liu Pasquale Minervini Heinrich Küttler Aleksandra Piktus Pontus Stenetorp Sebastian Riedel RALM 40 229 0 13 Feb 2021
Mind the Gap: Assessing Temporal Generalization in Neural Language Models Angeliki Lazaridou A. Kuncoro E. Gribovskaya Devang Agrawal Adam Liska ... Sebastian Ruder Dani Yogatama Kris Cao Susannah Young Phil Blunsom VLM 41 207 0 03 Feb 2021
Memorization vs. Generalization: Quantifying Data Leakage in NLP Performance Evaluation Aparna Elangovan Jiayuan He Karin Verspoor TDI FedML 167 89 0 03 Feb 2021
UnitedQA: A Hybrid Approach for Open Domain Question Answering Hao Cheng Yelong Shen Xiaodong Liu Pengcheng He Weizhu Chen Jianfeng Gao 29 55 0 01 Jan 2021
NeurIPS 2020 EfficientQA Competition: Systems, Analyses and Lessons Learned Sewon Min Jordan L. Boyd-Graber Chris Alberti Danqi Chen Eunsol Choi ... Dmytro Okhonko M. Schlichtkrull Sonal Gupta Yashar Mehdad Wen-tau Yih 20 61 0 01 Jan 2021
Multi-task Retrieval for Knowledge-Intensive Tasks Jean Maillard Vladimir Karpukhin Fabio Petroni Wen-tau Yih Barlas Oğuz Veselin Stoyanov Gargi Ghosh 215 64 0 01 Jan 2021
A Closer Look at Few-Shot Crosslingual Transfer: The Choice of Shots Matters Mengjie Zhao Yi Zhu Ehsan Shareghi Ivan Vulić Roi Reichart Anna Korhonen Hinrich Schütze 32 64 0 31 Dec 2020
Pivot Through English: Reliably Answering Multilingual Questions without Document Retrieval Ivan Montero Shayne Longpre Ni Lao Andrew J. Frank Christopher DuBois LRM 21 5 0 28 Dec 2020
Generation-Augmented Retrieval for Open-domain Question Answering Yuning Mao Pengcheng He Xiaodong Liu Yelong Shen Jianfeng Gao Jiawei Han Weizhu Chen RALM 42 238 0 17 Sep 2020
Entities as Experts: Sparse Memory Access with Entity Supervision Thibault Févry Livio Baldini Soares Nicholas FitzGerald Eunsol Choi Tom Kwiatkowski RALM 30 151 0 15 Apr 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 299 6,996 0 20 Apr 2018