mMARCO: A Multilingual Version of the MS MARCO Passage Ranking Dataset

31 August 2021

L. Bonifacio

Vitor Jeronymo

Hugo Queiroz Abonizio

Papers citing "mMARCO: A Multilingual Version of the MS MARCO Passage Ranking Dataset"

26 / 26 papers shown

Title
Interpreting Multilingual and Document-Length Sensitive Relevance Computations in Neural Retrieval Models through Axiomatic Causal Interventions Oliver Savolainen Dur e Najaf Amjad Roxana Petcu AAML 30 0 0 04 May 2025
ALGEN: Few-shot Inversion Attacks on Textual Embeddings using Alignment and Generation Yiyi Chen Qiongkai Xu Johannes Bjerva 49 0 0 16 Feb 2025
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents Weiwei Sun Lingyong Yan Xinyu Ma Shuaiqiang Wang Pengjie Ren Zhumin Chen Dawei Yin Z. Ren RALM ALM ELM LRM LM&MA 76 285 0 31 Dec 2024
Enabling Low-Resource Language Retrieval: Establishing Baselines for Urdu MS MARCO Umer Butt Stalin Veranasi Günter Neumann 79 0 0 17 Dec 2024
INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages A. Singh Rudra Murthy Vishwajeet Kumar Jaydeep Sen Ashish Mittal Ganesh Ramakrishnan 37 6 0 18 Jul 2024
Datasets for Multilingual Answer Sentence Selection Matteo Gabburo S. Campese Federico Agostini Alessandro Moschitti 46 0 0 14 Jun 2024
Domain Adaptation of Multilingual Semantic Search -- Literature Review Anna Bringmann Anastasia Zhukova VLM 41 0 0 05 Feb 2024
IndicIRSuite: Multilingual Dataset and Neural Information Models for Indian Languages Saiful Haq Ashutosh Sharma Pushpak Bhattacharyya 26 2 0 15 Dec 2023
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval Nandan Thakur Jianmo Ni Gustavo Hernández Ábrego John Wieting Jimmy J. Lin Daniel Cer RALM 31 12 0 10 Nov 2023
MAUPQA: Massive Automatically-created Polish Question Answering Dataset Piotr Rybak 28 12 0 09 May 2023
Finding the Law: Enhancing Statutory Article Retrieval via Graph Neural Networks Antoine Louis Gijs van Dijck Gerasimos Spanakis AILaw 23 9 0 30 Jan 2023
Improving Cross-lingual Information Retrieval on Low-Resource Languages via Optimal Transport Distillation Zhiqi Huang Puxuan Yu James Allan VLM 38 26 0 29 Jan 2023
An Experimental Study on Pretraining Transformers from Scratch for IR Carlos Lassance Hervé Déjean S. Clinchant 28 11 0 25 Jan 2023
RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question Alireza Mohammadshahi Thomas Scialom Majid Yazdani Pouya Yanki Angela Fan James Henderson Marzieh Saeidi 31 20 0 02 Nov 2022
mRobust04: A Multilingual Version of the TREC Robust 2004 Benchmark Vitor Jeronymo Mauricio Nascimento R. Lotufo Rodrigo Nogueira 17 3 0 27 Sep 2022
Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual Retrieval Robert Litschko Ivan Vulić Goran Glavavs LRM 31 13 0 05 Apr 2022
One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia Alham Fikri Aji Genta Indra Winata Fajri Koto Samuel Cahyawijaya Ade Romadhony ... David Moeljadi Radityo Eko Prasojo Timothy Baldwin Jey Han Lau Sebastian Ruder 40 99 0 24 Mar 2022
DuReader_retrieval: A Large-scale Chinese Benchmark for Passage Retrieval from Web Search Engine Yifu Qiu Hongyu Li Yingqi Qu Ying Chen Qiaoqiao She Jing Liu Hua-Hong Wu Haifeng Wang RALM 38 15 0 19 Mar 2022
A cost-benefit analysis of cross-lingual transfer methods G. Rosa L. Bonifacio Leandro Rodrigues de Souza R. Lotufo Rodrigo Nogueira 26 12 0 14 May 2021
Should we Stop Training More Monolingual Models, and Simply Use Machine Translation Instead? T. Isbister F. Carlsson Magnus Sahlgren 61 24 0 21 Apr 2021
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 234 971 0 17 Apr 2021
Overview of the TREC 2020 deep learning track Nick Craswell Bhaskar Mitra Emine Yilmaz Daniel Fernando Campos 54 368 0 15 Feb 2021
The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained Sequence-to-Sequence Models Ronak Pradeep Rodrigo Nogueira Jimmy J. Lin MoE 61 166 0 14 Jan 2021
A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios Michael A. Hedderich Lukas Lange Heike Adel Jannik Strötgen Dietrich Klakow 202 286 0 23 Oct 2020
RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering Yingqi Qu Yuchen Ding Jing Liu Kai Liu Ruiyang Ren Xin Zhao Daxiang Dong Hua-Hong Wu Haifeng Wang RALM OffRL 214 594 0 16 Oct 2020
Overview of the TREC 2019 deep learning track Nick Craswell Bhaskar Mitra Emine Yilmaz Daniel Fernando Campos E. Voorhees 180 465 0 17 Mar 2020