How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models

How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models

31 December 2020

Sebastian Ruder

Papers citing "How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models"

14 / 64 papers shown

Title
Cross-lingual Transfer of Monolingual Models Evangelia Gogoulou Ariel Ekgren T. Isbister Magnus Sahlgren 27 17 0 15 Sep 2021
xGQA: Cross-Lingual Visual Question Answering Jonas Pfeiffer Gregor Geigle Aishwarya Kamath Jan-Martin O. Steitz Stefan Roth Ivan Vulić Iryna Gurevych 28 56 0 13 Sep 2021
Subword Mapping and Anchoring across Languages Giorgos Vernikos Andrei Popescu-Belis 62 12 0 09 Sep 2021
Contrastive Language-Image Pre-training for the Italian Language Federico Bianchi Giuseppe Attanasio Raphael Pisoni Silvia Terragni Gabriele Sarti S. Lakshmi VLM CLIP 27 29 0 19 Aug 2021
Modelling Latent Translations for Cross-Lingual Transfer E. Ponti Julia Kreutzer Ivan Vulić Siva Reddy 19 18 0 23 Jul 2021
A Primer on Pretrained Multilingual Language Models Sumanth Doddapaneni Gowtham Ramesh Mitesh M. Khapra Anoop Kunchukuttan Pratyush Kumar LRM 43 73 0 01 Jul 2021
Specializing Multilingual Language Models: An Empirical Study Ethan C. Chau Noah A. Smith 25 27 0 16 Jun 2021
The Interplay of Variant, Size, and Task Type in Arabic Pre-trained Language Models Go Inoue Bashar Alhafni Nurpeiis Baimukan Houda Bouamor Nizar Habash 35 223 0 11 Mar 2021
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts Jonas Pfeiffer Ivan Vulić Iryna Gurevych Sebastian Ruder 22 126 0 31 Dec 2020
Improving Multilingual Models with Language-Clustered Vocabularies Hyung Won Chung Dan Garrette Kiat Chuan Tan Jason Riesa VLM 72 65 0 24 Oct 2020
What the [MASK]? Making Sense of Language-Specific BERT Models Debora Nozza Federico Bianchi Dirk Hovy 84 105 0 05 Mar 2020
SberQuAD -- Russian Reading Comprehension Dataset: Description and Analysis Pavel Efimov Andrey Chertok Leonid Boytsov Pavel Braslavski 58 59 0 20 Dec 2019
MLQA: Evaluating Cross-lingual Extractive Question Answering Patrick Lewis Barlas Oğuz Ruty Rinott Sebastian Riedel Holger Schwenk ELM 246 491 0 16 Oct 2019
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,743 0 26 Sep 2016