Title
NLIP_Lab-IITH Multilingual MT System for WAT24 MT Shared Task Maharaj Brahma Pramit Sahoo Maunendra Sankar Desarkar 13 1 0 17 Oct 2024
Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings Krishno Dey Prerona Tarannum Md. Arid Hasan Imran Razzak Usman Naseem 66 5 0 17 Oct 2024
Scaling Laws for Multilingual Language Models Yifei He Alon Benhaim Barun Patra Praneetha Vaddamanu Sanchit Ahuja Parul Chopra Vishrav Chaudhary Han Zhao Xia Song 84 5 0 15 Oct 2024
Findings of the WMT 2024 Shared Task on Chat Translation Wafaa Mohammed Sweta Agrawal M. Amin Farajian Vera Cabarrão Bryan Eikema Ana C. Farinha José G. C. de Souza 60 4 0 15 Oct 2024
PMMT: Preference Alignment in Multilingual Machine Translation via LLM Distillation Shuqiao Sun Yutong Yao Peiwen Wu Feijun Jiang Kaifu Zhang 43 0 0 15 Oct 2024
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling Wenyuan Xu Rujun Han Zhenting Wang L. Le Dhruv Madeka Lei Li Wenjie Wang Rishabh Agarwal Chen-Yu Lee Tomas Pfister 193 11 0 15 Oct 2024
BridG MT: Enhancing LLMs' Machine Translation Capabilities with Sentence Bridging and Gradual MT Seung-Woo Choi Ga-Hyun Yoo Jay-Yoon Lee 68 0 0 15 Oct 2024
Effective Self-Mining of In-Context Examples for Unsupervised Machine Translation with LLMs Abdellah El Mekki Muhammad Abdul-Mageed LRM 79 1 0 14 Oct 2024
Machine Translation Evaluation Benchmark for Wu Chinese: Workflow and Analysis Hongjian Yu Yiming Shi Zherui Zhou Christopher Haberland 21 2 0 14 Oct 2024
QE-EBM: Using Quality Estimators as Energy Loss for Machine Translation Gahyun Yoo Jay Yoon Lee 77 0 0 14 Oct 2024
Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework Zhengwei Yang Yuke Li Qiang Sun Basura Fernando Heng-Chiao Huang Zheng Wang 133 1 0 14 Oct 2024
State of NLP in Kenya: A Survey Cynthia Jayne Amol Everlyn Asiko Chimoto Rose Delilah Gesicho Antony M. Gitau Naome A. Etori ... Catherine Gitau Antony Ndolo Lilian D. A. Wanzare Albert Njoroge Kahira Ronald Tombe 120 2 0 13 Oct 2024
Adapters for Altering LLM Vocabularies: What Languages Benefit the Most? HyoJung Han Akiko Eriguchi Haoran Xu Hieu T. Hoang Marine Carpuat Huda Khayrallah VLM 91 3 0 12 Oct 2024
Modeling User Preferences with Automatic Metrics: Creating a High-Quality Preference Dataset for Machine Translation Sweta Agrawal José G. C. de Souza Ricardo Rei António Farinhas Gonçalo Faria Patrick Fernandes Nuno M. Guerreiro Andre Martins 65 5 0 10 Oct 2024
DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory Yutong Wang Jiali Zeng Xuebo Liu Derek F. Wong Fandong Meng Jie Zhou Min Zhang 144 9 0 10 Oct 2024
Neural machine translation system for Lezgian, Russian and Azerbaijani languages Alidar Asvarov Andrey Grabovoy 57 0 0 07 Oct 2024
Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics Stefano Perrella Lorenzo Proietti Pere-Lluís Huguet Cabot Edoardo Barba Roberto Navigli 92 4 0 07 Oct 2024
Upsample or Upweight? Balanced Training on Heavily Imbalanced Datasets Tianjian Li Haoran Xu Weiting Tan Kenton Murray Daniel Khashabi 155 1 0 06 Oct 2024
Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on Wikipedia Farhan Samir Chan Young Park Anjalie Field Vered Shwartz Yulia Tsvetkov 122 2 0 05 Oct 2024
Towards Linguistically-Aware and Language-Independent Tokenization for Large Language Models (LLMs) Abrar Rahman Garry Bowlin Binit Mohanty Sean McGunigal 41 0 0 04 Oct 2024
Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models Yufang Liu Tao Ji Changzhi Sun Yuanbin Wu Aimin Zhou VLM MLLM 90 3 0 04 Oct 2024
X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale Haoran Xu Kenton W. Murray Philipp Koehn Hieu T. Hoang Akiko Eriguchi Huda Khayrallah 143 15 0 04 Oct 2024
Stars, Stripes, and Silicon: Unravelling the ChatGPT's All-American, Monochrome, Cis-centric Bias Federico Torrielli 103 1 0 02 Oct 2024
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models Lucas Bandarkar Benjamin Muller Pritish Yuvraj Rui Hou Nayan Singhal Hongjiang Lv Bing-Quan Liu KELM LRM MoMe 144 5 0 02 Oct 2024
Multi-Target Cross-Lingual Summarization: a novel task and a language-neutral approach Diogo Pernes Gonçalo M. Correia Afonso Mendes 86 1 0 01 Oct 2024
Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs Mehdi Ali Michael Fromm Klaudia Thellmann Jan Ebert Alexander Arno Weber ... René Jäkel Georg Rehm Stefan Kesselheim Joachim Köhler Nicolas Flores-Herr 100 7 0 30 Sep 2024
Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis Luka Andrenšek Boshko Koloski Andraz Pelicon Nada Lavrac Senja Pollak Matthew Purver 58 1 0 30 Sep 2024
Contrastive Token Learning with Similarity Decay for Repetition Suppression in Machine Translation Huangyu Dai Ben Chen Kaidi Chen Ying Han Zihan Liang Wen Jiang 56 0 0 30 Sep 2024
Making LLMs Better Many-to-Many Speech-to-Text Translators with Curriculum Learning Yexing Du Youcheng Pan Ziyang Ma Keqi Deng Yifan Yang Keqi Deng Xie Chen Yang Xiang Ming Liu Bing Qin LRM 151 9 0 29 Sep 2024
Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking Brian Yan Vineel Pratap Shinji Watanabe Michael Auli 90 0 0 27 Sep 2024
Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect Guokan Shang Hadi Abdine Yousef Khoubrane Amr Mohamed Yassine Abbahaddou ... Xuguang Ren Eric Moulines Preslav Nakov Michalis Vazirgiannis Eric Xing 85 6 0 26 Sep 2024
EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models Shaoxiong Ji Zihao Li Indraneil Paul Jaakko Paavola Peiqin Lin ... Dayyán O'Brien Hengyu Luo Hinrich Schütze Jörg Tiedemann Barry Haddow CLL 120 7 0 26 Sep 2024
LangSAMP: Language-Script Aware Multilingual Pretraining Yihong Liu Haotian Ye Chunlan Ma Mingyang Wang Hinrich Schütze VLM 246 0 0 26 Sep 2024
Pruning Multilingual Large Language Models for Multilingual Inference Hwichan Kim Jun Suzuki Tosho Hirasawa Mamoru Komachi 76 0 0 25 Sep 2024
EuroLLM: Multilingual Language Models for Europe Pedro Henrique Martins Patrick Fernandes Joao Alves Nuno M. Guerreiro Ricardo Rei ... Pierre Colombo Barry Haddow José G. C. de Souza Alexandra Birch André F. T. Martins 88 40 0 24 Sep 2024
Unlocking Markets: A Multilingual Benchmark to Cross-Market Question Answering Yifei Yuan Yang Deng Anders Søgaard Mohammad Aliannejadi 55 0 0 24 Sep 2024
Brotherhood at WMT 2024: Leveraging LLM-Generated Contextual Conversations for Cross-Lingual Image Captioning Siddharth Betala Ishan Chokshi VLM 57 0 0 23 Sep 2024
Scaling Laws of Decoder-Only Models on the Multilingual Machine Translation Task Gaëtan Caillaut Raheel Qader Mariam Nakhlé Jingshu Liu Jean-Gabriel Barthélemy 61 1 0 23 Sep 2024
Choose the Final Translation from NMT and LLM hypotheses Using MBR Decoding: HW-TSC's Submission to the WMT24 General MT Shared Task Zhanglin Wu Daimeng Wei Zongyao Li Hengchao Shang Jiaxin Guo Shaojun Li Zhiqiang Rao Yuanchang Luo Ning Xie Hao Yang 62 5 0 23 Sep 2024
Egalitarian Language Representation in Language Models: It All Begins with Tokenizers Menan Velayuthan Kengatharaiyer Sarveswaran 102 7 0 17 Sep 2024
AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs Basel Mousi Nadir Durrani Fatema Ahmad Md. Arid Hasan Maram Hasanain Tameem Kabbani Fahim Dalvi Shammur A. Chowdhury Firoj Alam 97 9 0 17 Sep 2024
STLM Engineering Report: Dropout Dylan Hillier Leon Guertler Bobby Cheng Cheston Tan 34 0 0 09 Sep 2024
Exploring Intrinsic Language-specific Subspaces in Fine-tuning Multilingual Neural Machine Translation Zhe Cao Zhi Qu Hidetaka Kamigaito Taro Watanabe MoE 88 2 0 08 Sep 2024
Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak Mukhammadsaid Mamasaidov Abror Shopulatov VLM 54 4 0 06 Sep 2024
How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes Inacio Vieira Will Allred Séamus Lankford Sheila Castilho Andy Way 90 7 0 05 Sep 2024
Exploratory Visual Analysis for Increasing Data Readiness in Artificial Intelligence Projects Mattias Tiger Daniel Jakobsson Anders Ynnerman Fredrik Heintz Daniel Jonsson 53 0 0 05 Sep 2024
Correcting FLORES Evaluation Dataset for Four African Languages Idris Abdulmumin Sthembiso Mkhwanazi Mahlatse S. Mbooi Shamsuddeen Hassan Muhammad Ibrahim Said Ahmad Neo Putini Miehleketo Mathebula Matimba Shingange T. Gwadabe Vukosi Marivate 77 6 0 01 Sep 2024
InkubaLM: A small language model for low-resource African languages A. Tonja Bonaventure F. P. Dossou Jessica Ojo Jenalea Rajab Fadel Thior ... Anuoluwapo Aremu Pelonomi Moiloa Jade Z. Abbott Vukosi Marivate Benjamin Rosman 100 11 0 30 Aug 2024
WET: Overcoming Paraphrasing Vulnerabilities in Embeddings-as-a-Service with Linear Transformation Watermarks Anudeex Shetty Xingliang Yuan Jey Han Lau WaLM 119 3 0 29 Aug 2024
Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation Vivek Iyer Bhavitvya Malik Pavel Stepachev Pinzhen Chen Barry Haddow Alexandra Birch ALM 73 4 0 23 Aug 2024