CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB

10 November 2019

Sergey Edunov

Papers citing "CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB"

50 / 52 papers shown

Title
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models Julian Spravil Sebastian Houben Sven Behnke VLM 75 0 0 12 Mar 2025
Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study Menglong Cui Pengzhi Gao Wei Liu Jian Luan Bin Wang LRM 45 2 0 04 Feb 2025
Ukrainian-to-English folktale corpus: Parallel corpus creation and augmentation for machine translation in low-resource languages Olena Burda-Lassen 29 3 0 14 Oct 2024
Adapters for Altering LLM Vocabularies: What Languages Benefit the Most? HyoJung Han Akiko Eriguchi Haoran Xu Hieu T. Hoang Marine Carpuat Huda Khayrallah VLM 37 2 0 12 Oct 2024
Cogs in a Machine, Doing What They're Meant to Do -- The AMI Submission to the WMT24 General Translation Task Atli Jasonarson Hinrik Hafsteinsson Bjarki Ármannsson Steinþór Steingrímsson SyDa 37 2 0 04 Oct 2024
X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale Haoran Xu Kenton W. Murray Philipp Koehn Hieu T. Hoang Akiko Eriguchi Huda Khayrallah 34 8 0 04 Oct 2024
EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models Shaoxiong Ji Zihao Li Indraneil Paul Jaakko Paavola Peiqin Lin ... Dayyán O'Brien Hengyu Luo Hinrich Schütze Jörg Tiedemann Barry Haddow CLL 43 3 0 26 Sep 2024
Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment Yongxin Huang Kexin Wang Goran Glavavs Iryna Gurevych 46 0 0 20 Jul 2024
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models Lynn Chua Badih Ghazi Yangsibo Huang Pritish Kamath Ravi Kumar Pasin Manurangsi Amer Sinha Chulin Xie Chiyuan Zhang 66 1 0 23 Jun 2024
Critical Learning Periods: Leveraging Early Training Dynamics for Efficient Data Pruning E. Chimoto Jay Gala Orevaoghene Ahia Julia Kreutzer Bruce A. Bassett Sara Hooker VLM 42 4 0 29 May 2024
Charles Translator: A Machine Translation System between Ukrainian and Czech Martin Popel Lucie Poláková Michal Novák Jindřich Helcl Jindrich Libovický Pavel Stranák Tomás Krabac Jaroslava Hlavácová Mariia Anisimova Tereza Chlanová 19 0 0 10 Apr 2024
DUB: Discrete Unit Back-translation for Speech Translation Dong Zhang Rong Ye Tom Ko Mingxuan Wang Yaqian Zhou 21 23 0 19 May 2023
Train Global, Tailor Local: Minimalist Multilingual Translation into Endangered Languages Zhong Zhou Jan Niehues Alexander Waibel 30 0 0 05 May 2023
Learning Language-Specific Layers for Multilingual Machine Translation Telmo Pires Robin M. Schmidt Yi-Hsiu Liao Stephan Peitz 42 17 0 04 May 2023
Escaping the sentence-level paradigm in machine translation Matt Post Marcin Junczys-Dowmunt 33 26 0 25 Apr 2023
Transfer to a Low-Resource Language via Close Relatives: The Case Study on Faroese Vésteinn Snaebjarnarson A. Simonsen Goran Glavavs Ivan Vulić 37 19 0 18 Apr 2023
Bilex Rx: Lexical Data Augmentation for Massively Multilingual Machine Translation Alex Jones Isaac Caswell Ishan Saxena Orhan Firat 23 9 0 27 Mar 2023
Poisoning Web-Scale Training Datasets is Practical Nicholas Carlini Matthew Jagielski Christopher A. Choquette-Choo Daniel Paleka Will Pearce Hyrum S. Anderson Andreas Terzis Kurt Thomas Florian Tramèr SILM 31 182 0 20 Feb 2023
Poor Man's Quality Estimation: Predicting Reference-Based MT Metrics Without the Reference Vilém Zouhar S. Dhuliawala Wangchunshu Zhou Nico Daheim Tom Kocmi Yuchen Eleanor Jiang Mrinmaya Sachan 18 9 0 21 Jan 2023
MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for Natural Language Understanding in Task-Oriented Dialogue Nikita Moghe E. Razumovskaia Liane Guillou Ivan Vulić Anna Korhonen Alexandra Birch 40 13 0 20 Dec 2022
GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator Jian Yang Shuming Ma Li Dong Shaohan Huang Haoyang Huang Yuwei Yin Dongdong Zhang Liqun Yang Furu Wei Zhoujun Li SyDa AI4CE 32 25 0 20 Dec 2022
SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations Paul-Ambroise Duquenne Hongyu Gong Ning Dong Jingfei Du Ann Lee Vedanuj Goswani Changhan Wang J. Pino Benoît Sagot Holger Schwenk 42 34 0 08 Nov 2022
Leveraging Affirmative Interpretations from Negation Improves Natural Language Understanding Md Mosharaf Hossain Eduardo Blanco 38 4 0 26 Oct 2022
Graphemic Normalization of the Perso-Arabic Script R. Doctor Alexander Gutkin Cibu Johny Brian Roark R. Sproat 44 4 0 21 Oct 2022
SMaLL-100: Introducing Shallow Multilingual Machine Translation Model for Low-Resource Languages Alireza Mohammadshahi Vassilina Nikoulina Alexandre Berard Caroline Brun James Henderson Laurent Besacier VLM MoE LRM 29 20 0 20 Oct 2022
Separating Grains from the Chaff: Using Data Filtering to Improve Multilingual Translation for Low-Resourced African Languages Idris Abdulmumin Michael Beukman Jesujoba Oluwadara Alabi Chris C. Emezue Everlyn Asiko ... Shamsuddeen Hassan Muhammad Mofetoluwa Adeyemi Oreen Yousuf Sahib Singh T. Gwadabe 34 7 0 19 Oct 2022
Multilingual Representation Distillation with Contrastive Learning Weiting Tan Kevin Heffernan Holger Schwenk Philipp Koehn 43 16 0 10 Oct 2022
The first neural machine translation system for the Erzya language David Dale 78 7 0 19 Sep 2022
What Do Compressed Multilingual Machine Translation Models Forget? Alireza Mohammadshahi Vassilina Nikoulina Alexandre Berard Caroline Brun James Henderson Laurent Besacier AI4CE 42 9 0 22 May 2022
SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation Sameer Khurana Antoine Laurent James R. Glass 25 36 0 17 May 2022
CoCoA-MT: A Dataset and Benchmark for Contrastive Controlled MT with Application to Formality Maria Nadejde Anna Currey B. Hsu Xing Niu Marcello Federico Georgiana Dinu 22 24 0 09 May 2022
Building Machine Translation Systems for the Next Thousand Languages Ankur Bapna Isaac Caswell Julia Kreutzer Orhan Firat D. Esch ... Apurva Shah Yanping Huang Z. Chen Yonghui Wu Macduff Hughes 56 98 0 09 May 2022
Pre-Trained Multilingual Sequence-to-Sequence Models: A Hope for Low-Resource Language Translation? E. Lee Sarubi Thillainathan Shravan Nayak Surangika Ranathunga David Ifeoluwa Adelani Ruisi Su Arya D. McCarthy VLM 21 43 0 16 Mar 2022
DeepNet: Scaling Transformers to 1,000 Layers Hongyu Wang Shuming Ma Li Dong Shaohan Huang Dongdong Zhang Furu Wei MoE AI4CE 26 156 0 01 Mar 2022
Textless Speech-to-Speech Translation on Real Data Ann Lee Hongyu Gong Paul-Ambroise Duquenne Holger Schwenk Peng-Jen Chen ... Sravya Popuri Yossi Adi J. Pino Jiatao Gu Wei-Ning Hsu 28 142 0 15 Dec 2021
Self-Supervised Knowledge Assimilation for Expert-Layman Text Style Transfer Wenda Xu Michael Stephen Saxon Misha Sra Luu Anh Tuan MedIm 19 13 0 06 Oct 2021
Survey of Low-Resource Machine Translation Barry Haddow Rachel Bawden Antonio Valerio Miceli Barone Jindvrich Helcl Alexandra Birch AIMat 31 148 0 01 Sep 2021
Facebook AI WMT21 News Translation Task Submission C. Tran Shruti Bhosale James Cross Philipp Koehn Sergey Edunov Angela Fan VLM 134 81 0 06 Aug 2021
A Survey on Low-Resource Neural Machine Translation Rui Wang Xu Tan Renqian Luo Tao Qin Tie-Yan Liu 3DV 33 58 0 09 Jul 2021
Neural Machine Translation for Low-Resource Languages: A Survey Surangika Ranathunga E. Lee Marjana Prifti Skenduli Ravi Shekhar Mehreen Alam Rishemjit Kaur 38 236 0 29 Jun 2021
The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation Naman Goyal Cynthia Gao Vishrav Chaudhary Peng-Jen Chen Guillaume Wenzek Da Ju Sanjan Krishnan MarcÁurelio Ranzato Francisco Guzman Angela Fan 15 554 0 06 Jun 2021
Hidden Backdoors in Human-Centric Language Models Shaofeng Li Hui Liu Tian Dong Benjamin Zi Hao Zhao Minhui Xue Haojin Zhu Jialiang Lu SILM 35 147 0 01 May 2021
Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages Gowtham Ramesh Sumanth Doddapaneni Aravinth Bheemaraj Mayank Jobanputra AK Raghavan ... K. Deepak Vivek Raghavan Anoop Kunchukuttan Pratyush Kumar Mitesh Khapra LRM 37 229 0 12 Apr 2021
Multilingual AMR-to-Text Generation Angela Fan Claire Gardent 6 32 0 10 Nov 2020
Unsupervised Bitext Mining and Translation via Self-trained Contextual Embeddings Phillip Keung Julian Salazar Y. Lu Noah A. Smith SSL 27 25 0 15 Oct 2020
Nearest Neighbor Machine Translation Urvashi Khandelwal Angela Fan Dan Jurafsky Luke Zettlemoyer M. Lewis RALM 18 5 0 01 Oct 2020
Cross-lingual Retrieval for Iterative Self-Supervised Training C. Tran Y. Tang Xian Li Jiatao Gu RALM 28 72 0 16 Jun 2020
We Need to Talk About Random Splits Anders Søgaard Sebastian Ebert Jasmijn Bastings Katja Filippova 34 97 0 01 May 2020
MUSS: Multilingual Unsupervised Sentence Simplification by Mining Paraphrases Louis Martin Angela Fan Eric Villemonte de la Clergerie Antoine Bordes Benoît Sagot 20 36 0 01 May 2020
XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation Yaobo Liang Nan Duan Yeyun Gong Ning Wu Fenfei Guo ... Shuguang Liu Fan Yang Daniel Fernando Campos Rangan Majumder Ming Zhou ELM VLM 46 341 0 03 Apr 2020