Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?

20 December 2023

Papers citing "Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?"

31 / 31 papers shown

Title
HBO: Hierarchical Balancing Optimization for Fine-Tuning Large Language Models Weixuan Wang Minghao Wu Barry Haddow Alexandra Birch 2 0 0 18 May 2025
A Post-trainer's Guide to Multilingual Training Data: Uncovering Cross-lingual Transfer Dynamics Luísa Shimabucoro Ahmet Üstün Marzieh Fadaee Sebastian Ruder 25 0 0 23 Apr 2025
Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From Changjiang Gao Hankun Lin Shujian Huang Xin Huang Xue Han Junlan Feng Chao Deng Jiajun Chen LRM 52 0 0 15 Apr 2025
LinguaLIFT: An Effective Two-stage Instruction Tuning Framework for Low-Resource Language Reasoning Hongbin Zhang K. Chen Xuefeng Bai Yang Xiang Min Zhang 81 0 0 17 Dec 2024
Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings Krishno Dey Prerona Tarannum Md. Arid Hasan Imran Razzak Usman Naseem 35 3 0 17 Oct 2024
Linguistically-Informed Multilingual Instruction Tuning: Is There an Optimal Set of Languages to Tune? Gürkan Soykan Gözde Gül Şahin 23 0 0 10 Oct 2024
Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation Vivek Iyer Bhavitvya Malik Pavel Stepachev Pinzhen Chen Barry Haddow Alexandra Birch ALM 34 3 0 23 Aug 2024
Understanding and Mitigating Language Confusion in LLMs Kelly Marchisio Wei-Yin Ko Alexandre Berard Théo Dehaze Sebastian Ruder 58 23 0 28 Jun 2024
Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? Pinzhen Chen Simon Yu Zhicheng Guo Barry Haddow ELM 54 1 0 18 Jun 2024
mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans Yusuke Sakai Hidetaka Kamigaito Taro Watanabe LRM 46 3 0 06 Jun 2024
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners Shimao Zhang Changjiang Gao Wenhao Zhu Jiajun Chen Xin Huang Xue Han Junlan Feng Chao Deng Shujian Huang 40 5 0 22 May 2024
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights Wenhao Zhu Shujian Huang Fei Yuan Cheng Chen Jiajun Chen Alexandra Birch LRM 49 5 0 02 May 2024
Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice? D. Zhu Pinzhen Chen Miaoran Zhang Barry Haddow Xiaoyu Shen Dietrich Klakow 49 9 0 22 Apr 2024
CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment Geyu Lin Bin Wang Zhengyuan Liu Nancy F. Chen 37 7 0 18 Apr 2024
Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers Libo Qin Qiguang Chen Yuhang Zhou Zhi Chen Hai-Tao Zheng Lizi Liao Min Li Wanxiang Che Philip S. Yu LRM 55 36 0 07 Apr 2024
Poro 34B and the Blessing of Multilinguality Risto Luukkonen Jonathan Burdge Elaine Zosa Aarne Talman Ville Komulainen Vaino Hatanpaa Peter Sarlin S. Pyysalo AI4CE 50 12 0 02 Apr 2024
Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order Taishi Nakamura Mayank Mishra Simone Tedeschi Yekun Chai Jason T Stillerman ... Virendra Mehta Matthew Blumberg Victor May Huu Nguyen S. Pyysalo LRM 36 7 0 30 Mar 2024
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? E. Razumovskaia Ivan Vulić Anna Korhonen 46 6 0 04 Mar 2024
Decomposed Prompting: Unveiling Multilingual Linguistic Structure Knowledge in English-Centric Large Language Models Ercong Nie Shuzhou Yuan Bolei Ma Helmut Schmid Michael Farber Frauke Kreuter Hinrich Schütze ReLM 99 6 0 28 Feb 2024
Zero-shot cross-lingual transfer in instruction tuning of large language models Nadezhda Chirkova Vassilina Nikoulina LRM 43 3 0 22 Feb 2024
Analysis of Multi-Source Language Training in Cross-Lingual Transfer Seong Hoon Lim Taejun Yun Jinhyeon Kim Jihun Choi Taeuk Kim 46 2 0 21 Feb 2024
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages Yuan Zhang Yile Wang Zijun Liu Shuo Wang Xiaolong Wang Peng Li Maosong Sun Yang Liu LRM 35 11 0 19 Feb 2024
How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? Ehsan Doostmohammadi Oskar Holmstrom Marco Kuhlmann 40 8 0 16 Feb 2024
The Impact of Language Adapters in Cross-Lingual Transfer for NLU Jenny Kunz Oskar Holmström 33 4 0 31 Jan 2024
LangBridge: Multilingual Reasoning Without Multilingual Supervision Dongkeun Yoon Joel Jang Sungdong Kim Seungone Kim Sheikh Shafayat Minjoon Seo LRM 24 14 0 19 Jan 2024
Multilingual Instruction Tuning With Just a Pinch of Multilinguality Uri Shaham Jonathan Herzig Roee Aharoni Idan Szpektor Reut Tsarfaty Matan Eyal LRM 37 42 0 03 Jan 2024
Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca Pinzhen Chen Shaoxiong Ji Nikolay Bogoychev Andrey Kutuzov Barry Haddow Kenneth Heafield 34 45 0 16 Sep 2023
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 229 574 0 03 May 2023
Large Language Model Instruction Following: A Survey of Progresses and Challenges Renze Lou Kai Zhang Wenpeng Yin ALM LRM 32 20 0 18 Mar 2023
What Language Model to Train if You Have One Million GPU Hours? Teven Le Scao Thomas Wang Daniel Hesslow Lucile Saulnier Stas Bekman ... Lintang Sutawika Jaesung Tae Zheng-Xin Yong Julien Launay Iz Beltagy MoE AI4CE 230 103 0 27 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 345 12,003 0 04 Mar 2022