Beyond Counting Datasets: A Survey of Multilingual Dataset Construction and Necessary Resources

28 November 2022

Papers citing "Beyond Counting Datasets: A Survey of Multilingual Dataset Construction and Necessary Resources"

21 / 21 papers shown

Title
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks Minghao Wu Weixuan Wang Sinuo Liu Huifeng Yin Xintong Wang Yu Zhao Chenyang Lyu Longyue Wang Weihua Luo Kaifu Zhang ELM 79 0 0 22 Apr 2025
Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment Somnath Banerjee Sayan Layek Pratyush Chatterjee Animesh Mukherjee Rima Hazra LLMSV 76 0 0 16 Feb 2025
Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models Nikhil Sharma Kenton Murray Ziang Xiao 50 1 0 07 Jul 2024
TIGQA:An Expert Annotated Question Answering Dataset in Tigrinya Hailay Teklehaymanot Dren Fazlija Niloy Ganguly Gourab K. Patro Wolfgang Nejdl 34 0 0 26 Apr 2024
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment Zhaofeng Wu Ananth Balashankar Yoon Kim Jacob Eisenstein Ahmad Beirami 46 13 0 18 Apr 2024
Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers Libo Qin Qiguang Chen Yuhang Zhou Zhi Chen Hai-Tao Zheng Lizi Liao Min Li Wanxiang Che Philip S. Yu LRM 55 36 0 07 Apr 2024
Revealing Trends in Datasets from the 2022 ACL and EMNLP Conferences Jesse Atuhurra Hidetaka Kamigaito 39 0 0 31 Mar 2024
To token or not to token: A Comparative Study of Text Representations for Cross-Lingual Transfer Md. Mushfiqur Rahman Fardin Ahsan Sakib Fahim Faisal Antonios Anastasopoulos 28 3 0 12 Oct 2023
OYXOY: A Modern NLP Test Suite for Modern Greek Konstantinos Kogkalidis S. Chatzikyriakidis Eirini Chrysovalantou Giannikouri Vassiliki Katsouli Christina Klironomou ... Dimitris Papadakis Thelka Pasparaki Erofili Psaltaki E. Sakellariou Hara Soupiona 21 0 0 13 Sep 2023
Comparison between parameter-efficient techniques and full fine-tuning: A case study on multilingual news article classification Olesya Razuvayevskaya Ben Wu João A. Leite Freddy Heppell Ivan Srba Carolina Scarton Kalina Bontcheva Xingyi Song 24 8 0 14 Aug 2023
Snowman: A Million-scale Chinese Commonsense Knowledge Graph Distilled from Foundation Model Jiaan Wang Jianfeng Qu Yunlong Liang Zhixu Li An Liu Guanfeng Liu Xin Zheng 30 2 0 17 Jun 2023
BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer Akari Asai Sneha Kudugunta Xinyan Velocity Yu Terra Blevins Hila Gonen Machel Reid Yulia Tsvetkov Sebastian Ruder Hannaneh Hajishirzi 38 54 0 24 May 2023
GlobalBench: A Benchmark for Global Progress in Natural Language Processing Yueqi Song Catherine Cui Simran Khanuja Pengfei Liu Fahim Faisal ... Alham Fikri Aji Samuel Cahyawijaya Yulia Tsvetkov Antonios Anastasopoulos Graham Neubig 22 7 0 24 May 2023
Don't Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities and Types of LLMs Xiang Zhang Senyu Li B. Hauer Ning Shi Grzegorz Kondrak LRM 31 80 0 24 May 2023
How Good are Commercial Large Language Models on African Languages? Jessica Ojo Kelechi Ogueji 26 5 0 11 May 2023
Systematic Inequalities in Language Technology Performance across the World's Languages Damián E. Blasi Antonios Anastasopoulos Graham Neubig 127 131 0 13 Oct 2021
Visually Grounded Reasoning across Languages and Cultures Fangyu Liu Emanuele Bugliarello E. Ponti Siva Reddy Nigel Collier Desmond Elliott VLM LRM 109 168 0 28 Sep 2021
AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages Abteen Ebrahimi Manuel Mager Arturo Oncevay Vishrav Chaudhary Luis Chiruzzo ... Graham Neubig Alexis Palmer Rolando A. Coto Solano Ngoc Thang Vu Katharina Kann 109 72 0 18 Apr 2021
MLQA: Evaluating Cross-lingual Extractive Question Answering Patrick Lewis Barlas Oğuz Ruty Rinott Sebastian Riedel Holger Schwenk ELM 246 492 0 16 Oct 2019
Hypothesis Only Baselines in Natural Language Inference Adam Poliak Jason Naradowsky Aparajita Haldar Rachel Rudinger Benjamin Van Durme 190 576 0 02 May 2018
Six Challenges for Neural Machine Translation Philipp Koehn Rebecca Knowles AAML AIMat 224 1,208 0 12 Jun 2017