The Sensitivity of Language Models and Humans to Winograd Schema
Perturbations

The Sensitivity of Language Models and Humans to Winograd Schema Perturbations

4 May 2020

Vinit Ravishankar

Yonatan Belinkov

Desmond Elliott

Anders Søgaard

Papers citing "The Sensitivity of Language Models and Humans to Winograd Schema Perturbations"

11 / 11 papers shown

Title
WinoPron: Revisiting English Winogender Schemas for Consistency, Coverage, and Grammatical Case Vagrant Gautam Julius Steuer Eileen Bingert Ray Johns Anne Lauscher Dietrich Klakow 48 3 0 09 Sep 2024
Causal interventions expose implicit situation models for commonsense language understanding Takateru Yamakoshi James L. McClelland A. Goldberg Robert D. Hawkins 19 6 0 06 Jun 2023
Event knowledge in large language models: the gap between the impossible and the unlikely Carina Kauf Anna A. Ivanova Giulia Rambelli Emmanuele Chersoni Jingyuan Selena She Zawad Chowdhury Evelina Fedorenko Alessandro Lenci 37 67 0 02 Dec 2022
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs Jiarui Zhang Filip Ilievski Kaixin Ma Jonathan M Francis A. Oltramari SSL 16 5 0 21 May 2022
Generalized Quantifiers as a Source of Error in Multilingual NLU Benchmarks Ruixiang Cui Daniel Hershcovich Anders Søgaard 20 13 0 22 Apr 2022
Testing the limits of natural language models for predicting human language judgments Tal Golan Matthew Siegelman N. Kriegeskorte Christopher A. Baldassano 22 15 0 07 Apr 2022
Towards Zero-shot Commonsense Reasoning with Self-supervised Refinement of Language Models T. Klein Moin Nabi ReLM LRM 27 8 0 10 Sep 2021
Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema Yanai Elazar Hongming Zhang Yoav Goldberg Dan Roth ReLM LRM 37 44 0 16 Apr 2021
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 415 2,586 0 03 Sep 2019
Hypothesis Only Baselines in Natural Language Inference Adam Poliak Jason Naradowsky Aparajita Haldar Rachel Rudinger Benjamin Van Durme 190 576 0 02 May 2018
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,956 0 20 Apr 2018