MOCHA: A Dataset for Training and Evaluating Generative Reading Comprehension Metrics

7 October 2020

Gabriel Stanovsky

Papers citing "MOCHA: A Dataset for Training and Evaluating Generative Reading Comprehension Metrics"

27 / 27 papers shown

Title
SummEval: Re-evaluating Summarization Evaluation Alexander R. Fabbri Wojciech Kry'sciñski Bryan McCann Caiming Xiong R. Socher Dragomir R. Radev HILM 90 710 0 24 Jul 2020
BLEURT: Learning Robust Metrics for Text Generation Thibault Sellam Dipanjan Das Ankur P. Parikh 81 1,489 0 09 Apr 2020
Asking and Answering Questions to Evaluate the Factual Consistency of Summaries Alex Jinpeng Wang Kyunghyun Cho M. Lewis HILM 77 480 0 08 Apr 2020
Evaluating Models' Local Decision Boundaries via Contrast Sets Matt Gardner Yoav Artzi Victoria Basmova Jonathan Berant Ben Bogin ... Sanjay Subramanian Reut Tsarfaty Eric Wallace Ally Zhang Ben Zhou ELM 61 84 0 06 Apr 2020
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 361 42,299 0 03 Dec 2019
Learning the Difference that Makes a Difference with Counterfactually-Augmented Data Divyansh Kaushik Eduard H. Hovy Zachary Chase Lipton CML 82 569 0 26 Sep 2019
Cosmos QA: Machine Reading Comprehension with Contextual Commonsense Reasoning Lifu Huang Ronan Le Bras Chandra Bhagavatula Yejin Choi AIMat RALM LRM 99 453 0 31 Aug 2019
Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets Mor Geva Yoav Goldberg Jonathan Berant 320 325 0 21 Aug 2019
Quoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning Pradeep Dasigi Nelson F. Liu Ana Marasović Noah A. Smith Matt Gardner RALM 67 173 0 16 Aug 2019
On The Evaluation of Machine Translation Systems Trained With Back-Translation Sergey Edunov Myle Ott MarcÁurelio Ranzato Michael Auli 36 97 0 14 Aug 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 518 24,351 0 26 Jul 2019
Compositional Questions Do Not Necessitate Multi-hop Reasoning Sewon Min Eric Wallace Sameer Singh Matt Gardner Hannaneh Hajishirzi Luke Zettlemoyer 82 149 0 07 Jun 2019
BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions Christopher Clark Kenton Lee Ming-Wei Chang Tom Kwiatkowski Michael Collins Kristina Toutanova 205 1,511 0 24 May 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 275 5,764 0 21 Apr 2019
DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs Dheeru Dua Yizhong Wang Pradeep Dasigi Gabriel Stanovsky Sameer Singh Matt Gardner AIMat 91 946 0 01 Mar 2019
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge Alon Talmor Jonathan Herzig Nicholas Lourie Jonathan Berant RALM 140 1,716 0 02 Nov 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.5K 94,511 0 11 Oct 2018
Commonsense for Generative Multi-Hop Question Answering Tasks Lisa Bauer Yicheng Wang Joey Tianyi Zhou RALM ReLM LRM KELM 35 181 0 17 Sep 2018
Learning to Evaluate Image Captioning Huayu Chen Guandao Yang Andreas Veit Xun Huang Serge J. Belongie 62 148 0 17 Jun 2018
AllenNLP: A Deep Semantic Natural Language Processing Platform Matt Gardner Joel Grus Mark Neumann Oyvind Tafjord Pradeep Dasigi Nelson F. Liu Matthew E. Peters Michael Schmitz Luke Zettlemoyer VLM 76 1,281 0 20 Mar 2018
MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script Knowledge Simon Ostermann Ashutosh Modi Michael Roth Stefan Thater Manfred Pinkal 46 105 0 14 Mar 2018
The NarrativeQA Reading Comprehension Challenge Tomás Kociský Jonathan Richard Schwarz Phil Blunsom Chris Dyer Karl Moritz Hermann Gábor Melis Edward Grefenstette 128 771 0 19 Dec 2017
SemEval-2017 Task 1: Semantic Textual Similarity - Multilingual and Cross-lingual Focused Evaluation Daniel Cer Mona T. Diab Eneko Agirre I. Lopez-Gazpio Lucia Specia 344 1,880 0 31 Jul 2017
Adversarial Examples for Evaluating Reading Comprehension Systems Robin Jia Percy Liang AAML ELM 196 1,602 0 23 Jul 2017
RACE: Large-scale ReAding Comprehension Dataset From Examinations Guokun Lai Qizhe Xie Hanxiao Liu Yiming Yang Eduard H. Hovy ELM 162 1,343 0 15 Apr 2017
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 231 8,113 0 16 Jun 2016
Improving Neural Machine Translation Models with Monolingual Data Rico Sennrich Barry Haddow Alexandra Birch 241 2,716 0 20 Nov 2015