v1v2 (latest)

QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension

ACM Computing Surveys (CSUR), 2021

27 July 2021

Anna Rogers

Matt Gardner

Isabelle Augenstein

ArXiv (abs)PDF HTML Github

Papers citing "QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension"

50 / 89 papers shown

FarsiMCQGen: a Persian Multiple-choice Question Generation Framework

304

16 Oct 2025

ProtoSiTex: Learning Semi-Interpretable Prototypes for Multi-label Text Classification

221

14 Oct 2025

ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly

Kimihiro Hasegawa

Wiradee Imrattanatrai

282

03 Sep 2025

Meet Your New Client: Writing Reports for AI -- Benchmarking Information Loss in Market Research Deliverables

191

17 Aug 2025

Metric assessment protocol in the context of answer fluctuation on MCQ tasks

216

21 Jul 2025

RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization

362

02 May 2025

MTRAG: A Multi-Turn Conversational Benchmark for Evaluating Retrieval-Augmented Generation SystemsTransactions of the Association for Computational Linguistics (TACL), 2025

305

08 Jan 2025

QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA PerformanceIEEE Access (IEEE Access), 2025

Binita Saha

Utsha Saha

Muhammad Zubair Malik

RALM 3DV

351

06 Jan 2025

RAG-based Question Answering over Heterogeneous Data and TextIEEE Data Engineering Bulletin (DEB), 2024

Philipp Christmann

Gerhard Weikum

LMTD RALM

417

10 Dec 2024

CaLMQA: Exploring culturally specific long-form question answering across 23 languages

557

25 Jun 2024

Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language ModelsIEEE Access (IEEE Access), 2024

Akchay Srivastava

Atif Memon

ELM

267

19 Jun 2024

emrQA-msquad: A Medical Dataset Structured with the SQuAD V2.0 Framework, Enriched with emrQA Medical Information

Jimenez Eladio

Hao Wu

284

18 Apr 2024

Data Augmentation with In-Context Learning and Comparative Evaluation in Math Word Problem Solving

Gulsum Yigit

M. Amasyalı

AIMat

219

05 Apr 2024

CLAPNQ: Cohesive Long-form Answers from Passages in Natural Questions for RAG systemsTransactions of the Association for Computational Linguistics (TACL), 2024

365

02 Apr 2024

TriviaHG: A Dataset for Automatic Hint Generation from Factoid Questions

Jamshid Mozafari

Anubhav Jangra

Adam Jatowt

343

27 Mar 2024

Reasoning Runtime Behavior of a Program with LLM: How Far Are We?

Xin Xia

349

25 Mar 2024

A Question Answering Based Pipeline for Comprehensive Chinese EHR Information Extraction

Huaiyuan Ying

Sheng Yu

MedIm

178

17 Feb 2024

FinLLMs: A Framework for Financial Reasoning Dataset Generation with Large Language Models

305

19 Jan 2024

One Pass Streaming Algorithm for Super Long Token Attention Approximation in Sublinear Space

423

24 Nov 2023

NEWTON: Are Large Language Models Capable of Physical Reasoning?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yi Ru Wang

377

10 Oct 2023

Graph Neural Prompting with Large Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2023

529

27 Sep 2023

Using Large Language Models for Knowledge Engineering (LLMKE): A Case Study on Wikidata

Bohui Zhang

Ioannis Reklos

Nitisha Jain

Albert Meroño-Peñuela

Elena Simperl

239

15 Sep 2023

BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation Suite for Large Language Models

Wei Qi Leong

Jian Gang Ngui

Yosephine Susanto

Hamsawardhini Rengarajan

Kengatharaiyer Sarveswaran

William-Chandra Tjhi

366

12 Sep 2023

Position: Key Claims in LLM Research Have a Long Tail of FootnotesInternational Conference on Machine Learning (ICML), 2023

Anna Rogers

A. Luccioni

552

14 Aug 2023

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill SetsInternational Conference on Learning Representations (ICLR), 2023

680

170

20 Jul 2023

The Extractive-Abstractive Axis: Measuring Content "Borrowing" in Generative Language Models

Nedelina Teneva

243

20 Jul 2023

When Do Annotator Demographics Matter? Measuring the Influence of Annotator Demographics with the POPQUORN DatasetLaw (LAW), 2023

Jiaxin Pei

David Jurgens

337

12 Jun 2023

Benchmarking Foundation Models with Language-Model-as-an-ExaminerNeural Information Processing Systems (NeurIPS), 2023

Yuze He

...

Yijia Xiao

Haozhe Lyu

Jiayin Zhang

Juanzi Li

Lei Hou

ALM ELM

419

217

07 Jun 2023

On Degrees of Freedom in Defining and Testing Natural Language UnderstandingAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Saku Sugawara

S. Tsugita

ELM

381

24 May 2023

Getting MoRE out of Mixture of Language Model Reasoning ExpertsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Chenglei Si

Weijia Shi

Chen Zhao

Luke Zettlemoyer

Jordan L. Boyd-Graber

LRM

318

24 May 2023

Few-shot Unified Question Answering: Tuning Models or Prompts?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yingbo Zhou

455

23 May 2023

Out-of-Distribution Generalization in Text Classification: Past, Present, and Future

Lingqiao Liu

Yue Zhang

355

23 May 2023

On the Risk of Misinformation Pollution with Large Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

594

194

23 May 2023

Evaluating Open-Domain Question Answering in the Era of Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

547

168

11 May 2023

MAUPQA: Massive Automatically-created Polish Question Answering DatasetWorkshop on Balto-Slavic Natural Language Processing (BSNLP), 2023

Piotr Rybak

254

09 May 2023

NorQuAD: Norwegian Question Answering DatasetNordic Conference of Computational Linguistics (NODALIDA), 2023

Sardana Ivanova

Fredrik Aas Andreassen

Matias Jentoft

Sondre Wold

Lilja Ovrelid

233

03 May 2023

In ChatGPT We Trust? Measuring and Characterizing the Reliability of ChatGPT

Xinyue Shen

Sihao Lin

Michael Backes

Yang Zhang

261

18 Apr 2023

LINGO : Visually Debiasing Natural Language Instructions to Support Task Diversity

Anjana Arunkumar

Sanjay Kariyappa

Rakhi Agrawal

Sriramakrishnan Chandrasekaran

Chris Bryan

225

12 Apr 2023

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Li Shen

Liang Ding

377

07 Apr 2023

Querying Large Language Models with SQLInternational Conference on Extending Database Technology (EDBT), 2023

Mohammed Saeed

Nicola De Cao

Paolo Papotti

323

02 Apr 2023

UKP-SQuARE v3: A Platform for Multi-Agent QA ResearchAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Kexin Wang

334

31 Mar 2023

Integrating Image Features with Convolutional Sequence-to-sequence Network for Multilingual Visual Question AnsweringJournal of Computer Science and Cybernetics (JCSC), 2023

T. M. Thai

Son T. Luu

273

22 Mar 2023

Secret-Keeping in Question Answering

Nathaniel W. Rollings

Kent O'Sullivan

Sakshum Kulshrestha

KELM

211

16 Mar 2023

Generating multiple-choice questions for medical question answering with distractors and cue-maskingInternational Conference on Language Resources and Evaluation (LREC), 2023

Damien Sileo

Kanimozhi Uma

Marie-Francine Moens

256

13 Mar 2023

AnoMalNet: Outlier Detection based Malaria Cell Image Classification Method Leveraging Deep AutoencoderInternational Journal of Reconfigurable and Embedded Systems (IJRES) (IJRES), 2023

198

10 Mar 2023

AmQA: Amharic Question Answering Dataset

Tilahun Abedissa

Ricardo Usbeck

Yaregal Assabie

224

06 Mar 2023

Make Every Example Count: On the Stability and Utility of Self-Influence for Learning from Noisy NLP DatasetsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

423

27 Feb 2023

Complex QA and language models hybrid architectures, Survey

846

17 Feb 2023

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and InteractivityInternational Joint Conference on Natural Language Processing (IJCNLP), 2023

...

973

1,702

08 Feb 2023

Beyond Counting Datasets: A Survey of Multilingual Dataset Construction and Necessary ResourcesConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

283

28 Nov 2022