Title
Where Are We? Evaluating LLM Performance on African Languages Ife Adebara Hawau Olamide Toyin Nahom Tesfu Ghebremichael AbdelRahim Elmadany Muhammad Abdul-Mageed 134 2 0 26 Feb 2025
Improving the quality of Web-mined Parallel Corpora of Low-Resource Languages using Debiasing Heuristics Aloka Fernando Surangika Ranathunga Nisansa de Silva 142 0 0 26 Feb 2025
Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus Samy Ouzerrout AuLLM 83 0 0 25 Feb 2025
NusaAksara: A Multimodal and Multilingual Benchmark for Preserving Indonesian Indigenous Scripts Muhammad Farid Adilazuarda M. Wijanarko Lucky Susanto Khumaisa Nuráini Derry Wijaya Alham Fikri Aji 114 0 0 25 Feb 2025
From Priest to Doctor: Domain Adaptation for Low-Resource Neural Machine Translation Ali Marashian Enora Rice Luke Gessler Alexis Palmer Katharina von der Wense 233 1 0 24 Feb 2025
Steering into New Embedding Spaces: Analyzing Cross-Lingual Alignment Induced by Model Interventions in Multilingual Language Models Anirudh Sundar Sinead Williamson Katherine Metcalf B. Theobald Skyler Seto Masha Fedzechkina LLMSV 135 1 0 24 Feb 2025
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild Saad Obaid ul Islam Anne Lauscher Goran Glavaš HILM LRM 184 3 0 21 Feb 2025
How do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations Hyunji Lee Danni Liu Supriti Sinhamahapatra Jan Niehues 189 2 0 21 Feb 2025
D.Va: Validate Your Demonstration First Before You Use It Qi Zhang Zhiqing Xiao Ruixuan Xiao Lirong Gao Junbo Zhao 220 0 0 20 Feb 2025
Multilingual Language Model Pretraining using Machine-translated Data Jiayi Wang Yao Lu Maurice Weber Max Ryabinin David Ifeoluwa Adelani Yihong Chen Raphael Tang Pontus Stenetorp LRM 130 5 0 20 Feb 2025
Batayan: A Filipino NLP benchmark for evaluating Large Language Models Jann Railey Montalan Jimson Paulo Layacan David Demitri Africa Richell Isaiah Flores Michael T. Lopez II Theresa Denise Magsajo Anjanette Cayabyab William-Chandra Tjhi 67 0 0 19 Feb 2025
Conditioning LLMs to Generate Code-Switched Text Maite Heredia Gorka Labaka Jeremy Barnes A. Soroa 35 1 0 18 Feb 2025
URIEL+: Enhancing Linguistic Inclusion and Usability in a Typological and Multilingual Knowledge Base Aditya Khan Mason Shipton David Anugraha Kaiyao Duan Phuong H. Hoang Eric Khiu A. Seza Doğruöz En-Shiun Annie Lee VLM 141 3 0 17 Feb 2025
DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection Yingli Shen Wen Lai Shuo Wang Xueren Zhang Kangyang Luo Alexander Fraser Maosong Sun 208 1 0 17 Feb 2025
LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy Zhiwen Ruan Yixia Li He Zhu Longyue Wang Weihua Luo Kaifu Zhang Yuxiao Chen Guanhua Chen 111 1 0 17 Feb 2025
Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models Masahiro Kaneko Alham Fikri Aji Timothy Baldwin 106 0 0 17 Feb 2025
Blessing of Multilinguality: A Systematic Analysis of Multilingual In-Context Learning Yilei Tu Andrew Xue Freda Shi 90 0 0 17 Feb 2025
TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking Shahriar Kabir Nahin R. N. Nandi Sagor Sarker Quazi Sarwar Muhtaseem Md. Kowsher Apu Chandraw Shill Md Ibrahim Mehadi Hasan Menon Tareq Al Muntasir Firoj Alam 185 0 0 16 Feb 2025
FoQA: A Faroese Question-Answering Dataset Annika Simonsen Dan Saattrup Nielsen Hafsteinn Einarsson 63 0 0 11 Feb 2025
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models Xu Huang Wenhao Zhu Hanxu Hu Zeang Sheng Lei Li Shujian Huang Fei Yuan ELM 176 4 0 11 Feb 2025
Multi-label Scandinavian Language Identification (SLIDE) Mariia Fedorova Jonas Sebulon Frydenberg Victoria Handford Victoria Ovedie Chruickshank Langø Solveig Helene Willoch Marthe Løken Midtgaard Yves Scherrer Petter Mæhlum David Samuel 85 0 0 10 Feb 2025
Beyond Literal Token Overlap: Token Alignability for Multilinguality Katharina Hämmerl Tomasz Limisiewicz Jindrich Libovický Alexander Fraser 73 0 0 10 Feb 2025
Self-Training Large Language Models for Tool-Use Without Demonstrations Ne Luo Aryo Pradipta Gema Xuanli He Emile van Krieken Pietro Lesci Pasquale Minervini LLMAG 156 2 0 09 Feb 2025
ARISE: Iterative Rule Induction and Synthetic Data Generation for Text Classification Y. Meena Vaibhav Singh Ayush Maheshwari Amrith Krishna Ganesh Ramakrishnan AI4TS 437 0 0 09 Feb 2025
M-IFEval: Multilingual Instruction-Following Evaluation Antoine Dussolle Andrea Cardeña Díaz Shota Sato Peter Devine ELM 172 0 0 07 Feb 2025
Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study Menglong Cui Pengzhi Gao Wei Liu Jian Luan Bin Wang LRM 144 6 0 04 Feb 2025
Memorization Inheritance in Sequence-Level Knowledge Distillation for Neural Machine Translation Verna Dankers Vikas Raunak VLM 151 0 0 03 Feb 2025
Revisiting Projection-based Data Transfer for Cross-Lingual Named Entity Recognition in Low-Resource Languages Andrei Politov Oleh Shkalikov René Jäkel Michael Färber 126 0 0 30 Jan 2025
Faster Machine Translation Ensembling with Reinforcement Learning and Competitive Correction Kritarth Prasad Mohammadi Zaki Pratik Rakesh Singh Pankaj Wasnik 61 1 0 28 Jan 2025
StringLLM: Understanding the String Processing Capability of Large Language Models Xilong Wang Hao Fu Jindong Wang Neil Zhenqiang Gong 179 0 0 28 Jan 2025
mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation Nishat Raihan Antonios Anastasopoulos Marcos Zampieri ELM 131 8 0 28 Jan 2025
Comparable Corpora: Opportunities for New Research Directions Kenneth Church 26 0 0 24 Jan 2025
Test-Time Code-Switching for Cross-lingual Aspect Sentiment Triplet Extraction Dongming Sheng Kexin Han Hao Li Yan Zhang Yucheng Huang Jun Lang Wenqiang Liu 75 0 0 24 Jan 2025
A Collection of Question Answering Datasets for Norwegian Vladislav Mikhailov Petter Mæhlum Victoria Ovedie Chruickshank Langø Erik Velldal Lilja Øvrelid RALM 97 4 0 19 Jan 2025
A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context Noureldin Zahran Aya E. Fouda Radwa J. Hanafy Mohammed E. Fouda AI4MH 68 1 0 12 Jan 2025
Language Fusion for Parameter-Efficient Cross-lingual Transfer Philipp Borchert Ivan Vulić Marie-Francine Moens Jochen De Weerdt 118 0 0 12 Jan 2025
AFRIDOC-MT: Document-level MT Corpus for African Languages Jesujoba Oluwadara Alabi Israel Abebe Azime Miaoran Zhang C. España-Bonet Rachel Bawden ... Shamsuddeen Hassan Muhammad Neo Putini David O. Ademuyiwa Andrew Caines Dietrich Klakow 116 0 0 10 Jan 2025
KG-TRICK: Unifying Textual and Relational Information Completion of Knowledge for Multilingual Knowledge Graphs Zelin Zhou Simone Conia Daniel Lee Min Li Shenglei Huang U. F. Minhas Saloni Potdar Henry Xiao Yunyao Li 73 0 0 08 Jan 2025
Dialectal and Low-Resource Machine Translation for Aromanian Alexandru-Iulius Jerpelea Alina-Ştefania Rădoi Sergiu Nisioi 48 1 0 08 Jan 2025
Registering Source Tokens to Target Language Spaces in Multilingual Neural Machine Translation Zhi Qu Yiran Wang Jiannan Mao Chenchen Ding Hideki Tanaka Masao Utiyama Taro Watanabe LRM 124 0 0 06 Jan 2025
Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison Tsz Kin Lam Marco Gaido Sara Papi L. Bentivogli Barry Haddow 128 0 0 04 Jan 2025
Lost-in-Distance: Impact of Contextual Proximity on LLM Performance in Graph Tasks Hamed Firooz Maziar Sanjabi Wenlong Jiang Xiaoling Zhai 144 3 0 03 Jan 2025
Sinhala Transliteration: A Comparative Analysis Between Rule-based and Seq2Seq Approaches Yomal De Mel Kasun Wickramasinghe Nisansa de Silva Surangika Ranathunga 110 1 0 03 Jan 2025
Fotheidil: an Automatic Transcription System for the Irish Language Liam Lonergan Ibon Saratxaga John Sloan Oscar Maharog Mengjie Qian Neasa Ní Chiaráin Christer Gobl A. N. Chasaide 82 0 0 03 Jan 2025
LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning Shuguang Chen Guang Lin LRM 484 1 0 28 Dec 2024
Revisiting In-Context Learning with Long Context Language Models Jinheon Baek Sun Jae Lee Prakhar Gupta Geunseob Oh Siddharth Dalmia 674 3 0 22 Dec 2024
Lexicography Saves Lives (LSL): Automatically Translating Suicide-Related Language Annika Marie Schoene J. Ortega Rodolfo Zevallos Laura Haaber Ihle 77 2 0 20 Dec 2024
Language verY Rare for All Ibrahim Merad Amos Wolf Ziad Mazzawi Yannick Léo 110 0 0 18 Dec 2024
Pipeline Analysis for Developing Instruct LLMs in Low-Resource Languages: A Case Study on Basque Ander Corral Ixak Sarasua Xabier Saralegi 77 2 0 18 Dec 2024
Domain-adaptative Continual Learning for Low-resource Tasks: Evaluation on Nepali Sharad Duwal Suraj Prasai Suresh Manandhar CLL 131 1 0 18 Dec 2024