Title
BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models Zhilin Wang Hongwei Li Rui Zhang Wenbo Jiang Kangjie Chen Tianwei Zhang Qingchuan Zhao Jiawei Li AAML 46 0 0 06 May 2025
Facilitating large language model Russian adaptation with Learned Embedding Propagation Mikhail Tikhomirov D. Chernyshev 38 1 0 31 Dec 2024
LinguaLIFT: An Effective Two-stage Instruction Tuning Framework for Low-Resource Language Reasoning Hongbin Zhang K. Chen Xuefeng Bai Yang Xiang Min Zhang 79 0 0 17 Dec 2024
ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework Hengyuan Zhang Chenming Shang Sizhe Wang Dongdong Zhang Feng Yao Renliang Sun Yiyao Yu Yujiu Yang Furu Wei 60 3 0 25 Oct 2024
Responsible Multilingual Large Language Models: A Survey of Development, Applications, and Societal Impact Junhua Liu Bin Fu LRM 29 1 0 23 Oct 2024
Language Imbalance Driven Rewarding for Multilingual Self-improving Wen Yang Junhong Wu Chen Wang Chengqing Zong Junzhe Zhang ALM LRM 66 4 0 11 Oct 2024
Generative Model for Less-Resourced Language with 1 billion parameters Domen Vreš Martin Božič Aljaž Potočnik Tomaž Martinčič Marko Robnik-Šikonja 26 1 0 09 Oct 2024
Representing the Under-Represented: Cultural and Core Capability Benchmarks for Developing Thai Large Language Models Dahyun Kim Sukyung Lee Yungi Kim Attapol Rutherford Chanjun Park ELM 31 1 0 07 Oct 2024
CiMaTe: Citation Count Prediction Effectively Leveraging the Main Text Jun Hirako Ryohei Sasano Koichi Takeda 32 2 0 06 Oct 2024
Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora Yungi Kim Hyunsoo Ha Sukyung Lee Jihoo Kim Seonghoon Yang Chanjun Park 36 0 0 15 Sep 2024
Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation Vivek Iyer Bhavitvya Malik Pavel Stepachev Pinzhen Chen Barry Haddow Alexandra Birch ALM 29 3 0 23 Aug 2024
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data Haoran Sun Renren Jin Shaoyang Xu Leiyu Pan Supryadi ... Lei Yang Ling Shi Juesi Xiao Shaolin Zhu Deyi Xiong 62 1 0 12 Aug 2024
Enabling Contextual Soft Moderation on Social Media through Contrastive Textual Deviation Pujan Paudel Mohammad Hammas Saeed Rebecca Auger Chris Wells Gianluca Stringhini 69 1 0 30 Jul 2024
LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages Yinquan Lu Wenhao Zhu Lei Li Yu Qiao Fei Yuan 42 24 0 08 Jul 2024
M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models Rishabh Maheshwary Vikas Yadav Hoang Nguyen Khyati Mahajan Sathwik Tejaswi Madhusudhan 44 3 0 24 Jun 2024
Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? Pinzhen Chen Simon Yu Zhicheng Guo Barry Haddow ELM 46 1 0 18 Jun 2024
Why Not Transform Chat Large Language Models to Non-English? Xiang Geng Ming Zhu Jiahuan Li Zhejian Lai Wei Zou ... Xinglin Lyu Min Zhang Jiajun Chen Hao Yang Shujian Huang 37 2 0 22 May 2024
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners Shimao Zhang Changjiang Gao Wenhao Zhu Jiajun Chen Xin Huang Xue Han Junlan Feng Chao Deng Shujian Huang 32 5 0 22 May 2024
Tagengo: A Multilingual Chat Dataset P. Devine 34 3 0 21 May 2024
Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages Samuel Cahyawijaya Holy Lovenia Fajri Koto Rifki Afina Putri Emmanuel Dave ... Bryan Wilie Genta Indra Winata Alham Fikri Aji Ayu Purwarianti Pascale Fung 52 15 0 09 Apr 2024
Teaching Llama a New Language Through Cross-Lingual Knowledge Transfer Hele-Andra Kuulmets Taido Purason Agnes Luhtaru Mark Fishel 26 17 0 05 Apr 2024
Poro 34B and the Blessing of Multilinguality Risto Luukkonen Jonathan Burdge Elaine Zosa Aarne Talman Ville Komulainen Vaino Hatanpaa Peter Sarlin S. Pyysalo AI4CE 44 12 0 02 Apr 2024
Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order Taishi Nakamura Mayank Mishra Simone Tedeschi Yekun Chai Jason T Stillerman ... Virendra Mehta Matthew Blumberg Victor May Huu Nguyen S. Pyysalo LRM 28 7 0 30 Mar 2024
Measuring Taiwanese Mandarin Language Understanding Po-Heng Chen Sijia Cheng Wei-Lin Chen Yen-Ting Lin Yun-Nung Chen ELM 44 2 0 29 Mar 2024
WangchanLion and WangchanX MRC Eval Wannaphong Phatthiyaphaibun Surapon Nonesung Patomporn Payoungkhamdee Peerat Limkonchotiwat Can Udomcharoenchaikit Jitkapat Sawatphol Chompakorn Chaksangchaichot E. Chuangsuwanich Sarana Nutanong 50 0 0 24 Mar 2024
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? E. Razumovskaia Ivan Vulić Anna Korhonen 43 6 0 04 Mar 2024
Tower: An Open Multilingual Large Language Model for Translation-Related Tasks Duarte M. Alves José P. Pombal Nuno M. Guerreiro Pedro H. Martins Joao Alves ... Patrick Fernandes Sweta Agrawal Pierre Colombo José G. C. de Souza André F.T. Martins LRM 48 129 0 27 Feb 2024
Fine-tuning Large Language Models for Domain-specific Machine Translation Jiawei Zheng Hanghai Hong Xiaoli Wang Jingsong Su Yonggui Liang Shikai Wu ALM 52 32 0 23 Feb 2024
PALO: A Polyglot Large Multimodal Model for 5B People Muhammad Maaz H. Rasheed Abdelrahman M. Shaker Salman Khan Hisham Cholakal Rao M. Anwer Timothy Baldwin M. Felsberg Fahad S. Khan VLM LRM 85 13 0 22 Feb 2024
Mitigating the Linguistic Gap with Phonemic Representations for Robust Multilingual Language Understanding Haeji Jung Changdae Oh Jooeon Kang Jimin Sohn Kyungwoo Song Jinkyu Kim David R. Mortensen 29 1 0 22 Feb 2024
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models Yang Liu Meng Xu Shuo Wang Liner Yang Haoyu Wang ... Cunliang Kong Yun-Nung Chen Yang Liu Maosong Sun Erhong Yang ELM LRM 38 1 0 21 Feb 2024
Airavata: Introducing Hindi Instruction-tuned LLM Jay Gala Thanmay Jayakumar Jaavid Aktar Husain M. AswanthKumar Mohammed Safi Ur Rahman Khan ... Ratish Puduppully Mitesh M. Khapra Raj Dabre Rudra Murthy Anoop Kunchukuttan 42 23 0 26 Jan 2024
SeaLLMs -- Large Language Models for Southeast Asia Xuan-Phi Nguyen Wenxuan Zhang Xin Li Mahani Aljunied Zhiqiang Hu ... Yue Deng Sen Yang Chaoqun Liu Hang Zhang Li Bing LRM 29 73 0 01 Dec 2023
Oasis: Data Curation and Assessment System for Pretraining of Large Language Models Tong Zhou Yubo Chen Pengfei Cao Kang Liu Jun Zhao Shengping Liu 29 3 0 21 Nov 2023
TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes Bibek Upadhayay Vahid Behzadan 27 7 0 17 Nov 2023
Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment Chong Li Shaonan Wang Jiajun Zhang Chengqing Zong 21 15 0 14 Nov 2023
COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances Haryo Akbarianto Wibowo Erland Hilman Fuadi Made Nindyatama Nityasya Radityo Eko Prasojo Alham Fikri Aji LRM 18 22 0 02 Nov 2023
A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models Haoran Xu Young Jin Kim Amr Sharaf Hany Awadalla 41 57 0 20 Sep 2023
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages Thuat Nguyen Chien Van Nguyen Viet Dac Lai Hieu Man Nghia Trung Ngo Franck Dernoncourt Ryan A. Rossi Thien Huu Nguyen 34 96 0 17 Sep 2023
Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca Pinzhen Chen Shaoxiong Ji Nikolay Bogoychev Andrey Kutuzov Barry Haddow Kenneth Heafield 23 43 0 16 Sep 2023
A Preliminary Study of the Intrinsic Relationship between Complexity and Alignment Ying Zhao Yu Bowen Binyuan Hui Haiyang Yu Fei Huang Yongbin Li N. Zhang 42 22 0 10 Aug 2023
Wider and Deeper LLM Networks are Fairer LLM Evaluators Xinghua Zhang Yu Bowen Haiyang Yu Yangyu Lv Tingwen Liu Fei Huang Hongbo Xu Yongbin Li ALM 45 83 0 03 Aug 2023
Do Multilingual Language Models Think Better in English? Julen Etxaniz Gorka Azkune Aitor Soroa Etxabe Oier López de Lacalle Mikel Artetxe LRM 30 58 0 02 Aug 2023
Instruction Tuning with GPT-4 Baolin Peng Chunyuan Li Pengcheng He Michel Galley Jianfeng Gao SyDa ALM LM&MA 159 579 0 06 Apr 2023
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 250 1,073 0 05 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022
Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation Ofir Press Noah A. Smith M. Lewis 253 695 0 27 Aug 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 253 1,996 0 31 Dec 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 243 4,469 0 23 Jan 2020
MLQA: Evaluating Cross-lingual Extractive Question Answering Patrick Lewis Barlas Oğuz Ruty Rinott Sebastian Riedel Holger Schwenk ELM 246 492 0 16 Oct 2019