Title
A Japanese Language Model and Three New Evaluation Benchmarks for Pharmaceutical NLP Issey Sukeda Takuro Fujii Kosei Buma Shunsuke Sasaki Shinnosuke Ono ELM 67 1 0 22 May 2025
Towards medical AI misalignment: a preliminary study Barbara Puccio Federico Castagna Allan Tucker Pierangelo Veltri 55 0 0 22 May 2025
Revealing Language Model Trajectories via Kullback-Leibler Divergence Ryo Kishino Yusuke Takase Momose Oyama Hiroaki Yamagiwa Hidetoshi Shimodaira 92 0 0 21 May 2025
Leveraging Online Data to Enhance Medical Knowledge in a Small Persian Language Model Mehrdad Ghassabi Pedram Rostami Hamidreza Baradaran Kashani Amirhossein Poursina Zahra Kazemi Milad Tavakoli LM&MA 176 0 0 21 May 2025
KaFT: Knowledge-aware Fine-tuning for Boosting LLMs' Domain-specific Question-Answering Performance Qihuang Zhong Liang Ding Xiantao Cai Juhua Liu Bo Du Dacheng Tao 98 0 0 21 May 2025
RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection Wenjun Hou Yi Cheng Kaishuai Xu Heng Li Yan Hu Wenjie Li Jiang Liu 103 0 0 20 May 2025
Trust Me, I Can Handle It: Self-Generated Adversarial Scenario Extrapolation for Robust Language Models Md Rafi Ur Rashid Vishnu Asutosh Dasu Ye Wang Gang Tan Shagufta Mehnaz AAML ELM 109 0 0 20 May 2025
Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference Jin Du Li Chen Xun Xian An Luo Fangqiao Tian Ganghua Wang Charles Doss Xiaotong Shen Jie Ding CML ELM 41 0 0 19 May 2025
Learnware of Language Models: Specialized Small Language Models Can Do Big Zhi-Hao Tan Zi-Chen Zhao Hao-Yu Shi Xin-Yu Zhang Peng Tan Yang Yu Zhi Zhou 122 0 0 19 May 2025
Decoding Rarity: Large Language Models in the Diagnosis of Rare Diseases Valentina Carbonari Pierangelo Veltri P. H. Guzzi LM&MA 123 0 0 18 May 2025
AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation Xiechi Zhang Zetian Ouyang Linlin Wang Gerard de Melo Zhu Cao Xiaoling Wang Ya Zhang Yanfeng Wang Liang He LM&MA ELM 124 0 0 17 May 2025
DO-RAG: A Domain-Specific QA Framework Using Knowledge Graph-Enhanced Retrieval-Augmented Generation David Osei Opoku Ming Sheng Yong Zhang 49 0 0 17 May 2025
MoL for LLMs: Dual-Loss Optimization to Enhance Domain Expertise While Preserving General Capabilities Jingxue Chen Qingkun Tang Qianchun Lu Siyuan Fang 89 0 0 17 May 2025
Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner Wenchuan Zhang Penghao Zhang Jingru Guo Tao Cheng Jie Chen Shuwan Zhang Zhang Zhang Yuhao Yi Hong Bu AI4TS LRM 139 0 0 16 May 2025
CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs Sijia Chen Xiaomin Li Mengxue Zhang Eric Hanchen Jiang Qingcheng Zeng Chen-Hsiang Yu AAML MU ELM 132 0 0 16 May 2025
Heart2Mind: Human-Centered Contestable Psychiatric Disorder Diagnosis System using Wearable ECG Monitors Hung Nguyen Alireza Rahimi Veronica Whitford Hélène Fournier Irina Kondratova René Richard Hung Cao 160 0 0 16 May 2025
A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment Jean-Philippe Corbeil Amin Dada Jean-Michel Attendu Asma Ben Abacha Alessandro Sordoni Lucas Caccia François Beaulieu Thomas Lin Jens Kleesiek Paul Vozila LM&MA 108 0 0 15 May 2025
Large Language Models for Computer-Aided Design: A Survey Licheng Zhang Bach Le Naveed Akhtar Siew-Kei Lam Tuan Ngo 3DV AI4CE 126 1 0 13 May 2025
NurValues: Real-World Nursing Values Evaluation for Large Language Models in Clinical Context Ben Yao Qiuchi Li Yazhou Zhang Siyu Yang Bohan Zhang Prayag Tiwari Jing Qin 111 0 0 13 May 2025
HealthBench: Evaluating Large Language Models Towards Improved Human Health Rahul Arora Jason W. Wei Rebecca Soskin Hicks Preston Bowman Joaquin Quiñonero Candela ... Meghan Shah Andrea Vallone Alex Beutel Johannes Heidecke K. Singhal LM&MA AI4MH ELM 122 6 0 13 May 2025
Multimodal Survival Modeling in the Age of Foundation Models Steven Song Morgan Borjigin-Wang Irene Madejski Robert L. Grossman 101 0 0 12 May 2025
Assessing and Mitigating Medical Knowledge Drift and Conflicts in Large Language Models Weiyi Wu Xinwen Xu Chongyang Gao Xingjian Diao Siting Li Lucas A. Salas Jiang Gui 66 0 0 12 May 2025
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information Joshua Harris Fan Grayson Felix Feldman Timothy Laurence Toby Nonnenmacher ... Leo Loman Selina Patel Thomas Finnie Samuel Collins Michael Borowitz AI4MH LM&MA ELM 136 0 0 09 May 2025
QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain Evaluation Mengze Hong Wailing Ng Di Jiang Chen Zhang ELM 109 0 0 08 May 2025
Interpretable graph-based models on multimodal biomedical data integration: A technical review and benchmarking Alireza Sadeghi F. Hajati A. Argha Nigel H Lovell Min Yang Hamid Alinejad-Rokny 129 0 0 03 May 2025
Towards Artificial Intelligence Research Assistant for Expert-Involved Learning Tianyu Liu Simeng Han Xiao Luo Haoyu Wang Pan Lu ... Arman Cohan Hua Xu Mark B. Gerstein James Zou Hongyu Zhao 77 1 0 03 May 2025
Transferable Adversarial Attacks on Black-Box Vision-Language Models Kai Hu Weichen Yu Lefei Zhang Alexander Robey Andy Zou Chengming Xu Haoqi Hu Matt Fredrikson AAML VLM 128 2 0 02 May 2025
Insulin Resistance Prediction From Wearables and Routine Blood Biomarkers Ahmed A. Metwally A. Heydari Daniel J. McDuff Alexandru Solot Zeinab Esmaeilpour ... David B. Savage C. Heneghan Shwetak N. Patel Cathy Speed Javier L. Prieto 78 1 0 30 Apr 2025
Talk Before You Retrieve: Agent-Led Discussions for Better RAG in Medical QA Xuanzhao Dong Wenhui Zhu Hao Wang Xiwen Chen Peijie Qiu Rui Yin Yi Su Yucheng Wang RALM MedIm 79 0 0 30 Apr 2025
Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models Minh-Hao Van Xintao Wu VLM 154 0 0 30 Apr 2025
A Domain-Agnostic Scalable AI Safety Ensuring Framework Beomjun Kim Kangyeon Kim Sunwoo Kim Heejin Ahn 149 0 0 29 Apr 2025
Multimodal Large Language Models for Medicine: A Comprehensive Survey Jiarui Ye Hao Tang LM&MA 178 0 0 29 Apr 2025
$$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation$ $\texttt{SAGE}$ : A Generic Framework for LLM Safety Evaluation Madhur Jindal Hari Shrawgi Parag Agrawal Sandipan Dandapat ELM 86 0 0 28 Apr 2025
BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text Jiageng Wu Bowen Gu Ren Zhou Kevin Xie Doug Snyder ... Siyang Song Jonathan H. Chen Santiago Romero-Brufau K. J. Lin Jie Yang LM&MA ELM 187 2 0 28 Apr 2025
TraveLLaMA: Facilitating Multi-modal Large Language Models to Understand Urban Scenes and Provide Travel Assistance Meng Chu Yukang Chen Haokun Gui Shaozuo Yu Yi Wang Jiaya Jia 73 2 0 23 Apr 2025
Investigating LLMs in Clinical Triage: Promising Capabilities, Persistent Intersectional Biases Joseph Lee Tianqi Shang Jae Young Baik D. Duong-Tran Shu Yang Lingyao Li Li Shen 423 1 0 22 Apr 2025
Enhancing TCR-Peptide Interaction Prediction with Pretrained Language Models and Molecular Representations Cong Qi Hanzhang Fang Siqi Jiang Tianxing Hu Wei Zhi 36 0 0 22 Apr 2025
LLM Sensitivity Evaluation Framework for Clinical Diagnosis Chenwei Yan Xiangling Fu Yuxuan Xiong Tianyi Wang Siu Cheung Hui Ji Wu Xien Liu LM&MA ELM 79 2 0 18 Apr 2025
Benchmarking Biopharmaceuticals Retrieval-Augmented Generation Evaluation Hanmeng Zhong Linqing Chen Weilei Wang Wentao Wu 142 0 0 15 Apr 2025
Streamlining Biomedical Research with Specialized LLMs Linqing Chen Weilei Wang Yubin Xia Wentao Wu Peng Xu ... Lisha Zhang Fu Bian Zhongkai Ye Lidong Pei Changyang Tu 62 1 0 15 Apr 2025
Learning to Be A Doctor: Searching for Effective Medical Agent Architectures Yangyang Zhuang Wenjia Jiang Jing Zhang Ze Yang Qiufeng Wang Chi Zhang AI4CE 76 0 0 15 Apr 2025
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives Ayoung Lee Ryan Sungmo Kwon Peter Railton Lu Wang ELM 143 0 0 15 Apr 2025
Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions Wang Zhu Tianqi Chen Ching Ying Lin Jade Law Mazen Jizzini Jorge J. Nieva Ruishan Liu Robin Jia 73 0 0 15 Apr 2025
Interactivity x Explainability: Toward Understanding How Interactivity Can Improve Computer Vision Explanations Indu Panigrahi Sunnie S. Y. Kim Amna Liaqat Rohan Jinturkar Olga Russakovsky Ruth C. Fong Parastoo Abtahi FAtt HAI 249 1 0 14 Apr 2025
DICE: A Framework for Dimensional and Contextual Evaluation of Language Models Aryan Shrivastava Paula Akemi Aoyagui 104 0 0 14 Apr 2025
SilVar-Med: A Speech-Driven Visual Language Model for Explainable Abnormality Detection in Medical Imaging Tan-Hanh Pham Chris Ngo Trong-Duong Bui Minh Luu Quang Tan-Huong Pham Truong-Son Hy 122 2 0 14 Apr 2025
Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging Siyuan Dai Kai Ye Guodong Liu Haoteng Tang Liang Zhan MedIm 49 0 0 09 Apr 2025
Right Prediction, Wrong Reasoning: Uncovering LLM Misalignment in RA Disease Diagnosis Umakanta Maharana Sarthak Verma Avarna Agarwal Prakashini Mruthyunjaya Dwarikanath Mahapatra Sakir Ahmed Murari Mandal 455 1 0 09 Apr 2025
LExT: Towards Evaluating Trustworthiness of Natural Language Explanations Krithi Shailya Shreya Rajpal Gokul S Krishnan Balaraman Ravindran ELM 118 1 0 08 Apr 2025
SECQUE: A Benchmark for Evaluating Real-World Financial Analysis Capabilities Noga Ben Yoash Meni Brief O. Ovadia Gil Shenderovitz Moshik Mishaeli Rachel Lemberg Eitam Sheetrit ELM AIFin 59 0 0 06 Apr 2025