MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering

30 July 2020

Papers citing "MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering"

50 / 100 papers shown

Title
CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents Francisco Valentini Diego Kozlowski Vincent Larivière 30 0 0 22 Apr 2025
NoTeS-Bank: Benchmarking Neural Transcription and Search for Scientific Notes Understanding Aniket Pal Sanket Biswas Alloy Das Ayush Lodh Priyanka Banerjee Soumitri Chattopadhyay Dimosthenis Karatzas Josep Lladós C. V. Jawahar VLM 32 0 0 12 Apr 2025
Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations Leonardo Ranaldi Federico Ranaldi Fabio Massimo Zanzotto Barry Haddow Alexandra Birch RALM LRM 43 0 0 07 Apr 2025
Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task Leonardo Ranaldi Barry Haddow Alexandra Birch RALM 68 1 0 04 Apr 2025
DaKultur: Evaluating the Cultural Awareness of Language Models for Danish with Native Speakers Max Müller-Eberstein Mike Zhang Elisa Bassignana Peter Brunsgaard Trolle Rob van der Goot ELM 44 0 0 03 Apr 2025
On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation Jirui Qi Raquel Fernández Arianna Bisazza RALM 58 0 0 01 Apr 2025
Extracting and Emulsifying Cultural Explanation to Improve Multilingual Capability of LLMs Hamin Koo Jaehyung Kim 48 0 0 07 Mar 2025
Enhancing Non-English Capabilities of English-Centric Large Language Models through Deep Supervision Fine-Tuning Wenshuai Huo Xiaocheng Feng Yichong Huang Chengpeng Fu Baohang Li ... Dandan Tu Duyu Tang Yunfei Lu Hui Wang Bing Qin 65 1 0 03 Mar 2025
Few-Shot Multilingual Open-Domain QA from 5 Examples Fan Jiang Tom Drummond Trevor Cohn 53 0 0 27 Feb 2025
Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs Jonathan Rystrøm Hannah Rose Kirk Scott A. Hale 46 2 0 23 Feb 2025
Multilingual Non-Factoid Question Answering with Answer Paragraph Selection Ritwik Mishra Sreeram Vennam R. Shah Ponnurangam Kumaraguru 95 0 0 20 Feb 2025
A Collection of Question Answering Datasets for Norwegian Vladislav Mikhailov Petter Mæhlum Victoria Ovedie Chruickshank Langø Erik Velldal Lilja Øvrelid RALM 43 4 0 19 Jan 2025
SandboxAQ's submission to MRL 2024 Shared Task on Multi-lingual Multi-task Information Retrieval Isidora Chara Tourni Sayontan Ghosh Brenda Miao Constantijn van der Poel LRM 33 0 0 28 Oct 2024
Unlocking Markets: A Multilingual Benchmark to Cross-Market Question Answering Yifei Yuan Yang Deng Anders Søgaard Mohammad Aliannejadi 28 0 0 24 Sep 2024
IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios Hai Lin Shaoxiong Zhan Junyou Su Haitao Zheng Hui Wang RALM 34 1 0 24 Sep 2024
Ruri: Japanese General Text Embeddings Hayato Tsukagoshi Ryohei Sasano 29 1 0 12 Sep 2024
Developing PUGG for Polish: A Modern Approach to KBQA, MRC, and IR Dataset Construction Albert Sawczyn Katsiaryna Viarenich Konrad Wojtasik Aleksandra Domogała Marcin Oleksy Maciej Piasecki Tomasz Kajdanowicz 39 0 0 05 Aug 2024
mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval Xin Zhang Yanzhao Zhang Dingkun Long Wen Xie Ziqi Dai ... Pengjun Xie Fei Huang Meishan Zhang Wenjie Li Min Zhang 42 78 0 29 Jul 2024
sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting Sanchit Ahuja Kumar Tanmay Hardik Hansrajbhai Chauhan Barun Patra Kriti Aggarwal ... Tejas I. Dhamecha Ahmed Awadallah Monojit Choudhary Vishrav Chaudhary Sunayana Sitaram 32 3 0 13 Jul 2024
Multilingual Trolley Problems for Language Models Zhijing Jin Sydney Levine Max Kleiman-Weiner Giorgio Piatti Jiarui Liu ... András Strausz Mrinmaya Sachan Rada Mihalcea Yejin Choi Bernhard Schölkopf LRM 50 5 0 02 Jul 2024
Retrieval-augmented generation in multilingual settings Nadezhda Chirkova David Rau Hervé Déjean Thibault Formal S. Clinchant Vassilina Nikoulina RALM 35 15 0 01 Jul 2024
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation David Rau Hervé Déjean Nadezhda Chirkova Thibault Formal Shuai Wang Vassilina Nikoulina S. Clinchant 45 12 0 01 Jul 2024
CaLMQA: Exploring culturally specific long-form question answering across 23 languages Shane Arora Marzena Karpinska Hung-Ting Chen Ipsita Bhattacharjee Mohit Iyyer Eunsol Choi HILM 49 11 0 25 Jun 2024
Large Language Models Are Cross-Lingual Knowledge-Free Reasoners Peng Hu Sizhe Liu Changjiang Gao Xin Huang Xue Han Junlan Feng Chao Deng Shujian Huang LRM 46 1 0 24 Jun 2024
Teaching LLMs to Abstain across Languages via Multilingual Feedback Shangbin Feng Weijia Shi Yike Wang Wenxuan Ding Orevaoghene Ahia Shuyue Stella Li Vidhisha Balachandran Sunayana Sitaram Yulia Tsvetkov 75 4 0 22 Jun 2024
1+1>2: Can Large Language Models Serve as Cross-Lingual Knowledge Aggregators? Yue Huang Chenrui Fan Yuan Li Siyuan Wu Tianyi Zhou Xiangliang Zhang Lichao Sun 53 3 0 20 Jun 2024
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models Akchay Srivastava Atif Memon ELM 48 1 0 19 Jun 2024
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages Holy Lovenia Rahmad Mahendra Salsabil Maulana Akbar Lester James V. Miranda Jennifer Santoso ... Genta Indra Winata Ruochen Zhang Fajri Koto Zheng-Xin Yong Samuel Cahyawijaya 92 9 0 14 Jun 2024
SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation Yuwei Wan Yixuan Liu Aswathy Ajith Clara Grazian B. Hoex Wenjie Zhang Chunyu Kit Tong Xie Ian Foster 26 7 0 16 May 2024
UQA: Corpus for Urdu Question Answering Samee Arif Sualeha Farid Awais Athar Agha Ali Raza 42 4 0 02 May 2024
CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge Yu Ying Chiu Amirhossein Ajalloeian Maria Antoniak Chan Young Park Shuyue Stella Li Mehar Bhatia Sahithya Ravi Yulia Tsvetkov Vered Shwartz Yejin Choi 44 20 0 10 Apr 2024
KazQAD: Kazakh Open-Domain Question Answering Dataset Rustem Yeshpanov Pavel Efimov Leonid Boytsov Ardak Shalkarbayuli Pavel Braslavski RALM 33 4 0 06 Apr 2024
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models Chaoqun Liu Wenxuan Zhang Yiran Zhao A. Luu Lidong Bing LRM 41 9 0 15 Mar 2024
Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision Fan Jiang Tom Drummond Trevor Cohn CLIP ELM LRM 31 3 0 26 Feb 2024
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models Yang Liu Meng Xu Shuo Wang Liner Yang Haoyu Wang ... Cunliang Kong Yun-Nung Chen Yang Liu Maosong Sun Erhong Yang ELM LRM 38 1 0 21 Feb 2024
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages Yuan Zhang Yile Wang Zijun Liu Shuo Wang Xiaolong Wang Peng Li Maosong Sun Yang Liu LRM 35 11 0 19 Feb 2024
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling Yuchun Miao Sen Zhang Liang Ding Rong Bao Lefei Zhang Dacheng Tao 31 12 0 14 Feb 2024
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model Ahmet Üstün Viraat Aryabumi Zheng-Xin Yong Wei-Yin Ko Daniel D'souza ... Shayne Longpre Niklas Muennighoff Marzieh Fadaee Julia Kreutzer Sara Hooker ALM ELM SyDa LRM 35 197 0 12 Feb 2024
What is "Typological Diversity" in NLP? Esther Ploeger Wessel Poelman Miryam de Lhoneux Johannes Bjerva 30 2 0 06 Feb 2024
BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation Jianlv Chen Shitao Xiao Peitian Zhang Kun Luo Defu Lian Zheng Liu 115 333 0 05 Feb 2024
Building Efficient and Effective OpenQA Systems for Low-Resource Languages Emrah Budur Riza Ozccelik Dilara Soylu Omar Khattab Tunga Güngör Christopher Potts 30 1 0 07 Jan 2024
Increasing Coverage and Precision of Textual Information in Multilingual Knowledge Graphs Simone Conia Min Li Daniel Lee U. F. Minhas Ihab F. Ilyas Yunyao Li 76 8 0 27 Nov 2023
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval Nandan Thakur Jianmo Ni Gustavo Hernández Ábrego John Wieting Jimmy J. Lin Daniel Cer RALM 31 12 0 10 Nov 2023
GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language Models Yuanchun Shen Ruotong Liao Zhen Han Yunpu Ma Volker Tresp 37 1 0 12 Oct 2023
Promoting Generalized Cross-lingual Question Answering in Few-resource Scenarios via Self-knowledge Distillation C. Carrino Carlos Escolano José A. R. Fonollosa 21 1 0 29 Sep 2023
MegaWika: Millions of reports and their sources across 50 diverse languages Samuel Barham Orion Weller Michelle Yuan Kenton W. Murray M. Yarmohammadi ... Alexander Martin Anqi Liu Aaron Steven White Jordan L. Boyd-Graber Benjamin Van Durme SyDa 45 4 0 13 Jul 2023
PolyLM: An Open Source Polyglot Large Language Model Xiangpeng Wei Hao-Ran Wei Huan Lin Tianhao Li Pei Zhang ... Yu Bowen Dayiheng Liu Baosong Yang Fei Huang Jun Xie LRM 48 55 0 12 Jul 2023
BLUEX: A benchmark based on Brazilian Leading Universities Entrance eXams Thales Sales Almeida Thiago Laitz Giovana K. Bonás Rodrigo Nogueira ELM 16 6 0 11 Jul 2023
On Evaluating Multilingual Compositional Generalization with Translated Datasets Zi Wang Daniel Hershcovich 28 7 0 20 Jun 2023
Revisiting non-English Text Simplification: A Unified Multilingual Benchmark Michael Joseph Ryan Tarek Naous Wei-ping Xu 31 25 0 25 May 2023