v1v2 (latest)

Annotation Artifacts in Natural Language Inference Data

6 March 2018

Papers citing "Annotation Artifacts in Natural Language Inference Data"

50 / 796 papers shown

Title
ALVIN: Active Learning Via INterpolation Michalis Korakakis Andreas Vlachos Adrian Weller 98 0 0 11 Oct 2024
Explanation sensitivity to the randomness of large language models: the case of journalistic text classification Jérémie Bogaert Marie-Catherine de Marneffe Antonin Descampe Louis Escouflaire Cedrick Fairon François-Xavier Standaert 100 1 0 07 Oct 2024
Plausibly Problematic Questions in Multiple-Choice Benchmarks for Commonsense Reasoning Shramay Palta Nishant Balepur Peter Rankel Sarah Wiegreffe Marine Carpuat Rachel Rudinger ELM 81 6 0 06 Oct 2024
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics Adrian Cosma Stefan Ruseti Mihai Dascalu Cornelia Caragea 48 3 0 04 Oct 2024
In-context Learning in Presence of Spurious Correlations Hrayr Harutyunyan R. Darbinyan Samvel Karapetyan Hrant Khachatrian LRM 88 1 0 04 Oct 2024
The Hard Positive Truth about Vision-Language Compositionality Amita Kamath Cheng-Yu Hsieh Kai-Wei Chang Ranjay Krishna CLIP CoGe VLM 78 8 0 26 Sep 2024
AlpaPICO: Extraction of PICO Frames from Clinical Trial Documents Using LLMs Madhusudan Ghosh Shrimon Mukherjee Asmit Ganguly Partha Basuchowdhuri S. Naskar Debasis Ganguly 94 8 0 15 Sep 2024
Enhancing adversarial robustness in Natural Language Inference using explanations Alexandros Koulakos Maria Lymperaiou Giorgos Filandrianos Giorgos Stamou SILM AAML 132 2 0 11 Sep 2024
Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? Neeladri Bhuiya Viktor Schlegel Stefan Winkler LRM 69 7 0 08 Sep 2024
Investigating a Benchmark for Training-set free Evaluation of Linguistic Capabilities in Machine Reading Comprehension Viktor Schlegel Goran Nenadic Riza Batista-Navarro ELM 56 0 0 09 Aug 2024
DisTrack: a new Tool for Semi-automatic Misinformation Tracking in Online Social Networks Francesco Di Salvo Álvaro Huertas-García Sebastian Doerrich Javier Huertas-Tato Christian Ledig 129 1 0 01 Aug 2024
Consent in Crisis: The Rapid Decline of the AI Data Commons Shayne Longpre Robert Mahari Ariel N. Lee Campbell Lund Hamidah Oderinwale ... Hanlin Li Daphne Ippolito Sara Hooker Jad Kabbara Sandy Pentland 125 42 0 20 Jul 2024
The Group Robustness is in the Details: Revisiting Finetuning under Spurious Correlations Tyler LaBonte John C. Hill Xinchen Zhang Vidya Muthukumar Abhishek Kumar AAML 72 2 0 19 Jul 2024
LitSearch: A Retrieval Benchmark for Scientific Literature Search Anirudh Ajith Mengzhou Xia Alexis Chevalier Tanya Goyal Danqi Chen Tianyu Gao RALM 89 14 0 10 Jul 2024
An LLM Feature-based Framework for Dialogue Constructiveness Assessment Lexin Zhou Youmna Farag Andreas Vlachos 68 2 0 20 Jun 2024
LLMs Are Prone to Fallacies in Causal Inference Nitish Joshi Abulhair Saparov Yixin Wang He He 66 15 0 18 Jun 2024
Not Eliminate but Aggregate: Post-Hoc Control over Mixture-of-Experts to Address Shortcut Shifts in Natural Language Understanding Ukyo Honda Tatsushi Oka Peinan Zhang Masato Mita 85 1 0 17 Jun 2024
$$\texttt{MoE-RBench}$: Towards Building Reliable Language Models with Sparse Mixture-of-Experts$ $\texttt{MoE-RBench}$ : Towards Building Reliable Language Models with Sparse Mixture-of-Experts Guanjie Chen Xinyu Zhao Tianlong Chen Yu Cheng MoE 116 5 0 17 Jun 2024
KGPA: Robustness Evaluation for Large Language Models via Cross-Domain Knowledge Graphs Aihua Pei Zehua Yang Shunan Zhu Ruoxi Cheng Ju Jia Lina Wang 121 1 0 16 Jun 2024
ECBD: Evidence-Centered Benchmark Design for NLP Yu Lu Liu Su Lin Blodgett Jackie Chi Kit Cheung Q. Vera Liao Alexandra Olteanu Ziang Xiao 91 12 0 13 Jun 2024
DCA-Bench: A Benchmark for Dataset Curation Agents Benhao Huang Yingzhuo Yu Jin Huang Xingjian Zhang Jiaqi Ma 120 1 0 11 Jun 2024
mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans Yusuke Sakai Hidetaka Kamigaito Taro Watanabe LRM 92 5 0 06 Jun 2024
Are We Done with MMLU? Aryo Pradipta Gema Joshua Ong Jun Leang Giwon Hong Alessio Devoto Alberto Carlo Maria Mancino ... R. McHardy Joshua Harris Jean Kaddour Emile van Krieken Pasquale Minervini ELM 144 44 0 06 Jun 2024
What Makes Language Models Good-enough? Daiki Asami Saku Sugawara 77 1 0 06 Jun 2024
Sharpness-Aware Minimization Enhances Feature Quality via Balanced Learning Jacob Mitchell Springer Vaishnavh Nagarajan Aditi Raghunathan 120 6 0 30 May 2024
Improve Student's Reasoning Generalizability through Cascading Decomposed CoTs Distillation Chengwei Dai Kun Li Wei Zhou Song Hu LRM 89 5 0 30 May 2024
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models Aparna Elangovan Ling Liu Lei Xu S. Bodapati Dan Roth ELM 103 10 0 28 May 2024
Views Can Be Deceiving: Improved SSL Through Feature Space Augmentation Kimia Hamidieh Haoran Zhang Swami Sankaranarayanan Marzyeh Ghassemi 97 0 0 28 May 2024
Towards Real-world Debiasing: Rethinking Evaluation, Challenge, and Solution Peng Kuang Zhibo Wang Zhixuan Chu Jingyi Wang Kui Ren CML 68 0 0 24 May 2024
Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference Yuqi Liu Mengyu Li Di Liang Ximing Li Fausto Giunchiglia Lan Huang Xiaoyue Feng Renchu Guan 57 3 0 21 May 2024
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus Eduard Poesina Cornelia Caragea Radu Tudor Ionescu 78 6 0 20 May 2024
Elements of World Knowledge (EWoK): A Cognition-Inspired Framework for Evaluating Basic World Knowledge in Language Models Anna A. Ivanova Aalok Sathe Benjamin Lipkin Unnathi Kumar S. Radkani ... Leshem Choshen Roger Levy Evelina Fedorenko Josh Tenenbaum Jacob Andreas 80 28 0 15 May 2024
Logical Negation Augmenting and Debiasing for Prompt-based Methods Yitian Li Jidong Tian Hao He Yaohui Jin 75 0 0 08 May 2024
Philosophy of Cognitive Science in the Age of Deep Learning Raphaël Millière AI4CE NAI 76 3 0 07 May 2024
A Philosophical Introduction to Language Models - Part II: The Way Forward Raphael Milliere Cameron Buckner LRM 124 15 0 06 May 2024
Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks Melissa Ailem Katerina Marazopoulou Charlotte Siska James Bono 96 22 0 25 Apr 2024
Does It Make Sense to Explain a Black Box With Another Black Box? J. Delaunay Luis Galárraga Christine Largouet AAML 60 1 0 23 Apr 2024
Improving Group Robustness on Spurious Correlation Requires Preciser Group Inference Yujin Han Difan Zou AAML 100 4 0 22 Apr 2024
Explanation based Bias Decoupling Regularization for Natural Language Inference Jianxiang Zang Hui Liu 59 1 0 20 Apr 2024
From Form(s) to Meaning: Probing the Semantic Depths of Language Models Using Multisense Consistency Xenia Ohmer Elia Bruni Dieuwke Hupkes AI4CE 113 7 0 18 Apr 2024
How often are errors in natural language reasoning due to paraphrastic variability? Neha Srikanth Marine Carpuat Rachel Rudinger LRM 72 2 0 17 Apr 2024
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents Liyan Tang Philippe Laban Greg Durrett HILM SyDa 86 103 0 16 Apr 2024
MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference Mobashir Sadat Cornelia Caragea 80 5 0 11 Apr 2024
XNLIeu: a dataset for cross-lingual NLI in Basque Maite Heredia Julen Etxaniz Muitze Zulaika X. Saralegi Jeremy Barnes A. Soroa 38 1 0 10 Apr 2024
Two Heads are Better than One: Nested PoE for Robust Defense Against Multi-Backdoors Victoria Graf Qin Liu Muhao Chen AAML 71 9 0 02 Apr 2024
Fairness in Large Language Models: A Taxonomic Survey Zhibo Chu Zichong Wang Wenbin Zhang AILaw 127 42 0 31 Mar 2024
Debiasing surgeon: fantastic weights and how to find them Rémi Nahon Ivan Luiz De Moura Matos Van-Tam Nguyen Enzo Tartaglione 77 1 0 21 Mar 2024
Transformers Learn Low Sensitivity Functions: Investigations and Implications Bhavya Vasudeva Deqing Fu Tianyi Zhou Elliott Kau Youqi Huang Vatsal Sharan 110 2 0 11 Mar 2024
On the Challenges and Opportunities in Generative AI Laura Manduchi Kushagra Pandey Robert Bamler Ryan Cotterell Sina Daubener ... F. Wenzel Frank Wood Stephan Mandt Vincent Fortuin Vincent Fortuin 284 22 0 28 Feb 2024
MultiContrievers: Analysis of Dense Retrieval Representations Seraphina Goldfarb-Tarrant Pedro Rodriguez Jane Dwivedi-Yu Patrick Lewis 123 1 0 24 Feb 2024