Unsupervised Cross-lingual Representation Learning at Scale

5 November 2019

Francisco Guzmán

Luke Zettlemoyer

Papers citing "Unsupervised Cross-lingual Representation Learning at Scale"

50 / 1,168 papers shown

Title
Towards Robust Knowledge Representations in Multilingual LLMs for Equivalence and Inheritance based Consistent Reasoning Gaurav Arora Srujana Merugu Shreya Jain Vaibhav Saxena LRM 32 0 0 18 Oct 2024
CLaMP 2: Multimodal Music Information Retrieval Across 101 Languages Using Large Language Models Shangda Wu Yashan Wang Ruibin Yuan Zhancheng Guo Xu Tan ... Yuanliang Dong Jiafeng Liu Xiaobing Li Feng Yu Maosong Sun 36 4 0 17 Oct 2024
MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems Nandan Thakur Suleman Kazi Ge Luo Jimmy J. Lin Amin Ahmad VLM RALM 28 7 0 17 Oct 2024
Effective Self-Mining of In-Context Examples for Unsupervised Machine Translation with LLMs Abdellah El Mekki Muhammad Abdul-Mageed LRM 36 0 0 14 Oct 2024
One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks Fangru Lin Shaoguang Mao Emanuele La Malfa Valentin Hofmann Adrian de Wynter Jing Yao Si-Qing Chen Michael Wooldridge Furu Wei Furu Wei 51 2 0 14 Oct 2024
DEPT: Decoupled Embeddings for Pre-training Language Models Alex Iacob Lorenzo Sani Meghdad Kurmanji William F. Shen Xinchi Qiu Dongqi Cai Yan Gao Nicholas D. Lane VLM 200 0 0 07 Oct 2024
Punctuation Prediction for Polish Texts using Transformers Jakub Pokrywka 28 0 0 06 Oct 2024
Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets Tianjian Li Haoran Xu Weiting Tan Kenton Murray Daniel Khashabi 35 1 0 06 Oct 2024
What do Large Language Models Need for Machine Translation Evaluation? Shenbin Qian Archchana Sindhujan Minnie Kabra Diptesh Kanojia Constantin Orasan Tharindu Ranasinghe Frédéric Blain ELM LRM ALM LM&MA 35 0 0 04 Oct 2024
X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale Haoran Xu Kenton W. Murray Philipp Koehn Hieu T. Hoang Akiko Eriguchi Huda Khayrallah 44 8 0 04 Oct 2024
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models Lucas Bandarkar Benjamin Muller Pritish Yuvraj Rui Hou Nayan Singhal Hongjiang Lv Bing-Quan Liu KELM LRM MoMe 52 3 0 02 Oct 2024
Multi-Target Cross-Lingual Summarization: a novel task and a language-neutral approach Diogo Pernes Gonçalo M. Correia Afonso Mendes 30 1 0 01 Oct 2024
The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification Andreas Waldis Joel Birrer Anne Lauscher Iryna Gurevych 41 1 0 26 Sep 2024
EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models Shaoxiong Ji Zihao Li Indraneil Paul Jaakko Paavola Peiqin Lin ... Dayyán O'Brien Hengyu Luo Hinrich Schütze Jörg Tiedemann Barry Haddow CLL 43 3 0 26 Sep 2024
Topic-aware Causal Intervention for Counterfactual Detection Thong Nguyen Truc-My Nguyen 31 1 0 25 Sep 2024
Mitigating Semantic Leakage in Cross-lingual Embeddings via Orthogonality Constraint Dayeon Ki Cheonbok Park H. Kim FedML 39 0 0 24 Sep 2024
AlpaPICO: Extraction of PICO Frames from Clinical Trial Documents Using LLMs Madhusudan Ghosh Shrimon Mukherjee Asmit Ganguly Partha Basuchowdhuri S. Naskar Debasis Ganguly 36 7 0 15 Sep 2024
Seeing Through the Mask: Rethinking Adversarial Examples for CAPTCHAs Yahya Jabary Andreas Plesner Turlan Kuzhagaliyev Roger Wattenhofer AAML 39 0 0 09 Sep 2024
QueryBuilder: Human-in-the-Loop Query Development for Information Retrieval Hemanth Kandula Damianos Karakos Haoling Qiu Benjamin Rozonoyer Ian Soboroff Lee Tarlin Bonan Min 38 0 0 07 Sep 2024
CLEANANERCorp: Identifying and Correcting Incorrect Labels in the ANERcorp Dataset Mashael Al-Duwais H. Al-Khalifa Abdulmalik Al-Salman 50 0 0 22 Aug 2024
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design Artem Snegirev Maria Tikhonova Anna Maksimova Alena Fenogenova Alexander Abramov 34 4 0 22 Aug 2024
AdTEC: A Unified Benchmark for Evaluating Text Quality in Search Engine Advertising Peinan Zhang Yusuke Sakai Masato Mita Hiroki Ouchi Taro Watanabe 60 0 0 12 Aug 2024
Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond Beomseok Lee Ioan Calapodescu Marco Gaido Matteo Negri Laurent Besacier AuLLM 39 4 0 07 Aug 2024
Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection Sajal Aggarwal Ananya Pandey Dinesh Kumar Vishwakarma 43 1 0 05 Aug 2024
Advancing Post-OCR Correction: A Comparative Study of Synthetic Data Shuhao Guan Derek Greene 36 6 0 05 Aug 2024
UnifiedNN: Efficient Neural Network Training on the Cloud Xingyu Lou Arthi Padmanabhan Spyridon Mastorakis FedML 52 0 0 02 Aug 2024
Banyan: Improved Representation Learning with Explicit Structure Mattia Opper N. Siddharth 31 1 0 25 Jul 2024
FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process Yuyan Bu Qiang Sheng Juan Cao Peng Qi Danding Wang Jintao Li DiffM 41 8 0 23 Jul 2024
Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment Yongxin Huang Kexin Wang Goran Glavavs Iryna Gurevych 46 0 0 20 Jul 2024
PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis S. Dashti A. K. Bardsiri M. J. Shahbazzadeh 42 3 0 20 Jul 2024
Towards Zero-Shot Multimodal Machine Translation Matthieu Futeral Cordelia Schmid Benoît Sagot Rachel Bawden 40 3 0 18 Jul 2024
INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages A. Singh Rudra Murthy Vishwajeet Kumar Jaydeep Sen Ashish Mittal Ganesh Ramakrishnan 45 6 0 18 Jul 2024
FarFetched: Entity-centric Reasoning and Claim Validation for the Greek Language based on Textually Represented Environments D. Papadopoulos Katerina Metropoulou N. Matsatsinis N. Papadakis LRM 30 3 0 13 Jul 2024
An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models Nandini Mundra Aditya Nanda Kishore Raj Dabre Ratish Puduppully Anoop Kunchukuttan Mitesh Khapra 30 3 0 08 Jul 2024
Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning Jingshen Zhang Xinying Qiu Teng Shen Wenyu Wang Kailin Zhang Wenhe Feng 43 0 0 06 Jul 2024
A Principled Framework for Evaluating on Typologically Diverse Languages Esther Ploeger Wessel Poelman Andreas Holck Høeg-Petersen Anders Schlichtkrull Miryam de Lhoneux Johannes Bjerva 36 1 0 06 Jul 2024
YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation Sungkyun Chang Emmanouil Benetos Holger Kirchhoff Simon Dixon 37 3 0 05 Jul 2024
Exploring Diachronic and Diatopic Changes in Dialect Continua: Tasks, Datasets and Challenges Melis Çelikkol Lydia Körber Wei Zhao 27 0 0 04 Jul 2024
Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment Kota Shamanth Ramanath Nayak Leila Kosseim 31 0 0 01 Jul 2024
A Recipe of Parallel Corpora Exploitation for Multilingual Large Language Models Peiqin Lin André F. T. Martins Hinrich Schütze 61 2 0 29 Jun 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 61 25 0 28 Jun 2024
RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs Ekaterina Taktasheva Maxim Bazhukov Kirill Koncha Alena Fenogenova Ekaterina Artemova Vladislav Mikhailov 42 9 0 27 Jun 2024
SSP: Self-Supervised Prompting for Cross-Lingual Transfer to Low-Resource Languages using Large Language Models Vipul Rathore Aniruddha Deb Ankish Chandresh Parag Singla Mausam LRM 52 0 0 27 Jun 2024
A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs Vaibhav Singh Amrith Krishna Karthika NJ Ganesh Ramakrishnan 29 4 0 25 Jun 2024
Deepfake tweets automatic detection Adam Frej Adrian Kaminski Piotr Marciniak Szymon Szmajdzinski Soveatin Kuntur Anna Wroblewska 24 0 0 24 Jun 2024
UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding Dongyang Li Taolin Zhang Jiali Deng Longtao Huang Chengyu Wang Xiaofeng He Hui Xue 34 1 0 24 Jun 2024
Real-time Speech Summarization for Medical Conversations Khai Le-Duc Khai-Nguyen Nguyen Long Vo-Dang Truong-Son Hy MedIm 93 2 0 22 Jun 2024
Latent Space Translation via Inverse Relative Projection Valentino Maiorca Luca Moschella Marco Fumero Francesco Locatello Emanuele Rodolà 47 1 0 21 Jun 2024
Medical Spoken Named Entity Recognition Khai Le-Duc David Thulke Hung-Phong Tran Long Vo-Dang Khai-Nguyen Nguyen Truong-Son Hy Ralf Schluter 49 0 0 19 Jun 2024
Multilingual Large Language Models and Curse of Multilinguality Daniil Gurgurov Tanja Bäumel Tatiana Anikina 86 4 0 15 Jun 2024