PubMedQA: A Dataset for Biomedical Research Question Answering

13 September 2019

Papers citing "PubMedQA: A Dataset for Biomedical Research Question Answering"

50 / 525 papers shown

Title
Uncertainty Estimation of Large Language Models in Medical Question Answering Jiaxin Wu Yizhou Yu Hong-Yu Zhou HILM ELM 38 2 0 11 Jul 2024
Lynx: An Open Source Hallucination Evaluation Model Selvan Sunitha Ravi B. Mielczarek Anand Kannappan Douwe Kiela Rebecca Qian VLM RALM HILM 53 17 0 11 Jul 2024
A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models : Safety, Consensus, Objectivity, Reproducibility and Explainability Ting Fang Tan Kabilan Elangovan J. Ong Nigam Shah J. Sung ... Haibo Wang Chang Fu Kuo Simon Chesterman Zee Kin Yeong Daniel Ting ELM 27 4 0 10 Jul 2024
On Speeding Up Language Model Evaluation Jin Peng Zhou Christian K. Belardi Ruihan Wu Travis Zhang Carla P. Gomes Wen Sun Kilian Q. Weinberger 58 1 0 08 Jul 2024
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions Bojana Bašaragin Adela Ljajić Darija Medvecki Lorenzo Cassano Milos Kosprdic Nikola Milosevic LM&MA 32 2 0 06 Jul 2024
Efficient Training of Language Models with Compact and Consistent Next Token Distributions Ashutosh Sathe Sunita Sarawagi 37 0 0 03 Jul 2024
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs Yue Yu Ming-Yu Liu Zihan Liu Wei Ping Jiaxuan You Chao Zhang M. Shoeybi Bryan Catanzaro ALM RALM 39 50 0 02 Jul 2024
Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application Chuanpeng Yang Wang Lu Yao Zhu Yidong Wang Qian Chen Chenlong Gao Bingjie Yan Yiqiang Chen ALM KELM 44 22 0 02 Jul 2024
Searching for Best Practices in Retrieval-Augmented Generation Xiaohua Wang Zhenghua Wang Xuan Gao Feiran Zhang Yixin Wu ... Qi Qian Ruicheng Yin Changze Lv Xiaoqing Zheng Xuanjing Huang 60 40 0 01 Jul 2024
Detecting Subtle Differences between Human and Model Languages Using Spectrum of Relative Likelihood Yang Xu Yu Wang Hao An Zhichen Liu Yongyuan Li 39 4 0 28 Jun 2024
LLMs for Doctors: Leveraging Medical LLMs to Assist Doctors, Not Replace Them Wenya Xie Qingying Xiao Yu Zheng Xidong Wang Junying Chen Ke Ji Anningzhe Gao Xiang Wan Feng Jiang Benyou Wang LM&MA 36 3 0 26 Jun 2024
Efficient Continual Pre-training by Mitigating the Stability Gap Yiduo Guo Jie Fu Huishuai Zhang Dongyan Zhao Yikang Shen 30 13 0 21 Jun 2024
Model Merging and Safety Alignment: One Bad Model Spoils the Bunch Hasan Hammoud Umberto Michieli Fabio Pizzati Philip H. S. Torr Adel Bibi Guohao Li Mete Ozay MoMe 31 15 0 20 Jun 2024
Instruction Pre-Training: Language Models are Supervised Multitask Learners Daixuan Cheng Yuxian Gu Shaohan Huang Junyu Bi Minlie Huang Furu Wei SyDa 59 20 0 20 Jun 2024
Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models Dohyun Lee Daniel Rim Minseok Choi Jaegul Choo PILM MU 62 4 0 20 Jun 2024
ClinicalLab: Aligning Agents for Multi-Departmental Clinical Diagnostics in the Real World Weixiang Yan Haitian Liu Tengxiao Wu Qian Chen Wen Wang ... Jiayi Wang Weishan Zhao Yixin Zhang Renjun Zhang Li Zhu LM&MA 44 10 0 19 Jun 2024
Adversarial Attacks on Large Language Models in Medicine Yifan Yang Qiao Jin Furong Huang Zhiyong Lu AAML 39 4 0 18 Jun 2024
Aqulia-Med LLM: Pioneering Full-Process Open-Source Medical Language Models Lulu Zhao Weihao Zeng Xiaofeng Shi Hua Zhou Donglin Hao Yonghua Lin LM&MA 26 4 0 18 Jun 2024
Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks Jack Gallifant Shan Chen Pedro Moreira Nikolaj Munch Mingye Gao Jackson Pond Leo Anthony Celi Hugo J. W. L. Aerts Thomas Hartvigsen Danielle S. Bitterman 45 9 0 17 Jun 2024
MedCalc-Bench: Evaluating Large Language Models for Medical Calculations Nikhil Khandekar Qiao Jin Guangzhi Xiong Soren Dunn Serina S Applebaum ... Amisha D. Dave Andrew Taylor Aidong Zhang Qingyu Chen Zhiyong Lu LM&MA ELM 31 5 0 17 Jun 2024
Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs S. Kadhe Farhan Ahmed Dennis Wei Nathalie Baracaldo Inkit Padhi MoMe MU 28 7 0 17 Jun 2024
Applications of Generative AI in Healthcare: algorithmic, ethical, legal and societal considerations Onyekachukwu R. Okonji Kamol Yunusov Bonnie Gordon MedIm 43 3 0 15 Jun 2024
Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox Yijun Liu Yuan Meng Fang Wu Shenhao Peng Hang Yao Chaoyu Guan Chen Tang Xinzhu Ma Zhi Wang Wenwu Zhu MQ 58 7 0 15 Jun 2024
A Survey on Large Language Models from General Purpose to Medical Applications: Datasets, Methodologies, and Evaluations Jinqiang Wang Huansheng Ning Yi Peng Qikai Wei Daniel Tesfai Wenwei Mao Tao Zhu Runhe Huang LM&MA AI4MH ELM 44 5 0 14 Jun 2024
SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models Kehua Feng Keyan Ding Weijie Wang Xiang Zhuang Zeyuan Wang Ming Qin Yu Zhao Jianhua Yao Qiang Zhang H. Chen ELM 45 6 0 13 Jun 2024
An Empirical Study of Mamba-based Language Models R. Waleffe Wonmin Byeon Duncan Riach Brandon Norick V. Korthikanti ... Vartika Singh Jared Casper Jan Kautz M. Shoeybi Bryan Catanzaro 61 65 0 12 Jun 2024
MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models Dojun Park Jiwoo Lee Seohyun Park Hyeyun Jeong Youngeun Koo Soonha Hwang Seonwoo Park Sungeun Lee ELM 29 1 0 11 Jun 2024
MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering Juraj Vladika Phillip Schneider Florian Matthes 43 1 0 09 Jun 2024
Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions Cheng Tan Dongxin Lyu Siyuan Li Zhangyang Gao Jingxuan Wei Siqi Ma Zicheng Liu Stan Z. Li LLMAG 45 10 0 09 Jun 2024
Venn Diagram Prompting : Accelerating Comprehension with Scaffolding Effect Sakshi Mahendru Tejul Pandit 30 0 0 08 Jun 2024
Improving Logits-based Detector without Logits from Black-box LLMs Cong Zeng Shengkun Tang Xianjun Yang Yuanzhou Chen Yiyou Sun zhiqiang xu Yao Li Haifeng Chen Wei Cheng Dongkuan Xu DeLMO 65 1 0 07 Jun 2024
UltraMedical: Building Specialized Generalists in Biomedicine Kaiyan Zhang Sihang Zeng Ermo Hua Ning Ding Zhang-Ren Chen ... Xuekai Zhu Xingtai Lv Hu Jinfang Zhiyuan Liu Bowen Zhou LM&MA 43 22 0 06 Jun 2024
Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As Eden Avnat Michal Levy Daniel Herstain Elia Yanko Daniel Ben Joya ... Joseph Mermelstein Shahar Ovadia N. Shomron V. Shalev Raja-Elie E. Abdulnour ELM LM&MA AI4MH 29 1 0 06 Jun 2024
A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions Lei Liu Xiaoyan Yang Junchi Lei Xiaoyang Liu Yue Shen ... Peng Wei Jinjie Gu Zhixuan Chu Zhan Qin Kui Ren LM&MA AILaw 46 14 0 06 Jun 2024
M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering Anand Subramanian Viktor Schlegel Abhinav Ramesh Kashyap Thanh-Tung Nguyen Vijay Prakash Dwivedi Stefan Winkler ELM LM&MA AI4MH 31 3 0 06 Jun 2024
MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge Yuxuan Zhou Xien Liu Chen Ning Ji Wu ELM 28 3 0 05 Jun 2024
Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data Maxime Griot Jean Vanderdonckt D. Yüksel C. Hemptinne AI4Ed ELM LM&MA 45 5 0 04 Jun 2024
LlamaCare: A Large Medical Language Model for Enhancing Healthcare Knowledge Sharing Maojun Sun 29 1 0 04 Jun 2024
MedFuzz: Exploring the Robustness of Large Language Models in Medical Question Answering Robert Osazuwa Ness Katie Matton Hayden Helm Sheng Zhang Junaid Bajwa Carey E. Priebe Eric Horvitz ELM 28 9 0 03 Jun 2024
Probing Language Models for Pre-training Data Detection Zhenhua Liu Tong Zhu Chuanyuan Tan Haonan Lu Bing Liu Wenliang Chen 21 10 0 03 Jun 2024
Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization Yu-Min Tseng Yu-Chao Huang Teng-Yun Hsiao Yu-Ching Hsu Chao-Wei Huang Jia-Yin Foo Yun-Nung Chen LLMAG 259 68 0 03 Jun 2024
Luna: An Evaluation Foundation Model to Catch Language Model Hallucinations with High Accuracy and Low Cost Masha Belyi Robert Friel Shuai Shao Atindriyo Sanyal HILM RALM 64 5 0 03 Jun 2024
Harnessing Business and Media Insights with Large Language Models Yujia Bao Ankit Parag Shah Neeru Narang Jonathan Rivers Rajeev Maksey ... Gyuhak Kim Dengpan Yin Don Hejna Mo Nomeli Wei Wei AIFin 46 2 0 02 Jun 2024
Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models Zachary Ankner Cody Blakeney Kartik K. Sreenivasan Max Marion Matthew L. Leavitt Mansheej Paul 43 24 0 30 May 2024
PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations Jiatong Li Renjun Hu Kunzhe Huang Zhuang Yan Qi Liu Mengxiao Zhu Xing Shi Wei Lin KELM 48 5 0 30 May 2024
PromptWizard: Task-Aware Agent-driven Prompt Optimization Framework Eshaan Agarwal Vivek Dani T. Ganu A. Nambi LLMAG 31 0 0 28 May 2024
ReMoDetect: Reward Models Recognize Aligned LLM's Generations Hyunseok Lee Jihoon Tack Jinwoo Shin DeLMO 40 0 0 27 May 2024
Efficient Medical Question Answering with Knowledge-Augmented Question Generation Julien Khlaut Corentin Dancette Elodie Ferreres Alaedine Bennani Paul Hérent Pierre Manceron 30 1 0 23 May 2024
xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token Xin Cheng Xun Wang Xingxing Zhang Tao Ge Si-Qing Chen Furu Wei Huishuai Zhang Dongyan Zhao 67 29 0 22 May 2024
OLAPH: Improving Factuality in Biomedical Long-form Question Answering Minbyul Jeong Hyeon Hwang Chanwoong Yoon Taewhoo Lee Jaewoo Kang MedIm HILM LM&MA 46 12 0 21 May 2024