Datasets for Large Language Models: A Comprehensive Survey

Datasets for Large Language Models: A Comprehensive Survey

28 February 2024

Lianwen Jin

ArXiv (abs)PDF HTML Github (1277★)

Papers citing "Datasets for Large Language Models: A Comprehensive Survey"

9 / 9 papers shown

Title
Leveraging Online Data to Enhance Medical Knowledge in a Small Persian Language Model Mehrdad Ghassabi Pedram Rostami Hamidreza Baradaran Kashani Amirhossein Poursina Zahra Kazemi Milad Tavakoli LM&MA 162 0 0 21 May 2025
ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection Xiaoxuan Zhu Zhouhong Gu Baiqian Wu Suhang Zheng Tao Wang Tianyu Li Hongwei Feng Yanghua Xiao 201 0 0 01 Apr 2025
Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems? Kai Yan Yufei Xu Zhengyin Du Xuesong Yao Ziyi Wang Xiaowen Guo Jiecao Chen ReLM ELM LRM 176 5 0 01 Apr 2025
Investigating Retrieval-Augmented Generation in Quranic Studies: A Study of 13 Open-Source Large Language Models Zahra Khalila Arbi Haza Nasution Winda Monika Aytug Onan Yohei Murakami Yasir Bin Ismail Radi Noor Mohammad Osmani RALM 108 1 0 20 Mar 2025
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing Cheng Deng Luoyang Sun Jiwen Jiang Yongcheng Zeng Xinjian Wu ... Haoyang Li Lei Chen Lionel M. Ni Jun Wang Jun Wang 403 0 0 15 Mar 2025
Can Frontier LLMs Replace Annotators in Biomedical Text Mining? Analyzing Challenges and Exploring Solutions Yichong Zhao Susumu Goto 91 0 0 05 Mar 2025
DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection Yingli Shen Wen Lai Shuo Wang Xueren Zhang Kangyang Luo Alexander Fraser Maosong Sun 176 1 0 17 Feb 2025
REFA: Reference Free Alignment for multi-preference optimization Taneesh Gupta Rahul Madhavan Xuchao Zhang Chetan Bansal Saravan Rajmohan 135 1 0 20 Dec 2024
Large Language Models for Cyber Security: A Systematic Literature Review HanXiang Xu Shenao Wang Ningke Li Kaidi Wang Yanjie Zhao Kai Chen Ting Yu Yang Liu Haoyu Wang 111 40 0 08 May 2024