A Comprehensive Evaluation of Large Language Models on Benchmark
Biomedical Text Processing Tasks

A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks

6 October 2023

Md Tahmid Rahman Laskar

Papers citing "A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks"

15 / 15 papers shown

Title
Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization Ajwad Abrar Farzana Tabassum Sabbir Ahmed LM&MA ELM AI4MH 45 0 0 08 May 2025
EvidenceBench: A Benchmark for Extracting Evidence from Biomedical Papers Jiadong Wang Weili Cao Kaicheng Wang Xiaoyue Wang Ashish Dalvi ... David E. Neal Maxim Khan Christopher D. Rosin R. Paturi Leon Bergen 33 0 0 25 Apr 2025
Can Frontier LLMs Replace Annotators in Biomedical Text Mining? Analyzing Challenges and Exploring Solutions Yichong Zhao Susumu Goto 65 0 0 05 Mar 2025
AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset Tobi Olatunji Charles Nimo A. Owodunni Tassallah Abdullahi Emmanuel Ayodele ... Michael Best Irfan Essa Stephen E. Moore Chris Fourie M. Asiedu LM&MA 73 3 0 23 Nov 2024
A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations Md Tahmid Rahman Laskar Sawsan Alqahtani M Saiful Bari Mizanur Rahman Mohammad Abdullah Matin Khan ... Chee Wei Tan Md. Rizwan Parvez Enamul Hoque Chenyu You Jimmy Huang ELM ALM 31 28 0 04 Jul 2024
Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions Taojun Hu Xiao-Hua Zhou ELM 41 12 0 14 Apr 2024
Biomedical Entity Linking as Multiple Choice Question Answering Zhenxi Lin Ziheng Zhang Xian Wu Yefeng Zheng 33 2 0 23 Feb 2024
An Evaluation of Large Language Models in Bioinformatics Research Hengchuang Yin Zhonghui Gu Fanhao Wang Yiparemu Abuduhaibaier Yanqiao Zhu Xinming Tu Xian-Sheng Hua Xiao Luo Yizhou Sun LM&MA 38 8 0 21 Feb 2024
A comparative study of zero-shot inference with large language models and supervised modeling in breast cancer pathology classification Madhumita Sushil T. Zack Divneet Mandair Zhiwei Zheng Ahmed Wali Yan-Ning Yu Yuwei Quan A. Butte 38 6 0 25 Jan 2024
Task Contamination: Language Models May Not Be Few-Shot Anymore Changmao Li Jeffrey Flanigan 103 94 0 26 Dec 2023
BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls of Large Language Models on Bengali NLP M. Kabir Mohammed Saidul Islam Md Tahmid Rahman Laskar Mir Tafseer Nayeem M Saiful Bari Enamul Hoque LM&MA 24 15 0 22 Sep 2023
Readability Controllable Biomedical Document Summarization Zheheng Luo Qianqian Xie Sophia Ananiadou 42 36 0 10 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 333 12,003 0 04 Mar 2022
PRIMERA: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization Wen Xiao Iz Beltagy Giuseppe Carenini Arman Cohan CVBM 83 115 0 16 Oct 2021
PubMedQA: A Dataset for Biomedical Research Question Answering Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu 234 815 0 13 Sep 2019