LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

1 June 2023

Jianwei Yang

Papers citing "LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day"

50 / 141 papers shown

Title
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization Shuo Xing Yuping Wang Peiran Li Ruizheng Bai Yansen Wang Chengxuan Qian Chengxuan Qian Huaxiu Yao Zhengzhong Tu 97 6 0 18 Feb 2025
Magma: A Foundation Model for Multimodal AI Agents Jianwei Yang Reuben Tan Qianhui Wu Ruijie Zheng Baolin Peng ... Seonghyeon Ye Joel Jang Yuquan Deng Lars Liden Jianfeng Gao VLM AI4TS 122 9 0 18 Feb 2025
Natural Language Generation from Visual Sequences: Challenges and Future Directions Aditya K Surikuchi Raquel Fernández Sandro Pezzelle EGVM 255 0 0 18 Feb 2025
NOTA: Multimodal Music Notation Understanding for Visual Large Language Model Mingni Tang Jiajia Li Lu Yang Zhiqiang Zhang Jinghao Tian Zehan Li Lefei Zhang Peijie Wang 56 0 0 17 Feb 2025
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering Zeqing Wang Wentao Wan Qiqing Lao Runmeng Chen Minjie Lang Keze Wang Liang Lin Liang Lin LRM 103 3 0 17 Feb 2025
MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression Linjie Mu Zhongzhen Huang Shengqian Qin Yakun Zhu S. Zhang Xiaofan Zhang 44 1 0 17 Feb 2025
GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis Angelos Zavras Dimitrios Michail Xiao Xiang Zhu Begüm Demir Ioannis Papoutsis VLM 86 0 0 13 Feb 2025
Baichuan-Omni-1.5 Technical Report Yadong Li Qingbin Liu Tao Zhang Tao Zhang Tian Jin ... Jianhua Xu Haoze Sun Mingan Lin Zenan Zhou Xin Wu AuLLM 75 12 0 28 Jan 2025
A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics Kai He Rui Mao Qika Lin Yucheng Ruan Xiang Lan Mengling Feng Min Zhang LM&MA AILaw 98 154 0 28 Jan 2025
HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding Jiaxing Zhao Q. Yang Yixing Peng Detao Bai Shimin Yao ... Xiang Chen Shenghao Fu Weixuan chen Xihan Wei Liefeng Bo VGen AuLLM 50 5 0 28 Jan 2025
Domaino1s: Guiding LLM Reasoning for Explainable Answers in High-Stakes Domains Xu Chu Zhijie Tan Hanlin Xue Guanyu Wang Tong Mo Weiping Li ELM LRM 55 1 0 24 Jan 2025
CBVLM: Training-free Explainable Concept-based Large Vision Language Models for Medical Image Classification Cristiano Patrício Isabel Rio-Torto J. S. Cardoso Luís F. Teixeira João C. Neves VLM 262 1 0 21 Jan 2025
MedFILIP: Medical Fine-grained Language-Image Pre-training Xinjie Liang Xiangyu Li Fanding Li Jie Jiang Qing Dong Wei Wang Kaidi Wang Suyu Dong Gongning Luo Shuo Li LM&MA VLM MedIm 69 3 0 18 Jan 2025
PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging Gang Liu Jinlong He Pengfei Li Genrong He Zixu Zhao Shenjun Zhong LM&MA 76 2 0 17 Jan 2025
AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning Muhammad Awais Ali Husain Salem Abdulla Alharthi Amandeep Kumar Hisham Cholakkal Rao Muhammad Anwer VLM 65 3 0 10 Jan 2025
Deep Learning for Ophthalmology: The State-of-the-Art and Future Trends Duy M. Nguyen Hasan Md Tusfiqur Alam Trung Quoc Nguyen Devansh Srivastav H. Profitlich Ngan Le Daniel Sonntag 39 2 0 07 Jan 2025
Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Pathology Analysis Shengxuming Zhang Weihan Li Tianhong Gao Jiacong Hu Haoming Luo Xiuming Zhang Jing Zhang Mingli Song Zunlei Feng LM&MA 103 0 0 12 Dec 2024
MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization Kangyu Zhu Peng Xia Yun Li Hongtu Zhu Sheng Wang Huaxiu Yao 108 1 0 09 Dec 2024
On Domain-Specific Post-Training for Multimodal Large Language Models Daixuan Cheng Shaohan Huang Ziyu Zhu Xintong Zhang Wayne Xin Zhao Zhongzhi Luan Bo Dai Zhenliang Zhang VLM 102 2 0 29 Nov 2024
Libra: Leveraging Temporal Images for Biomedical Radiology Analysis Xi Zhang Zaiqiao Meng Jake Lever Edmond S. L. Ho MedIm 101 0 0 28 Nov 2024
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis Bo Liu K. Zou Liming Zhan Zexin Lu Xiaoyu Dong Yidi Chen Chengqiang Xie Jiannong Cao Xiao-Ming Wu Huazhu Fu 125 0 0 25 Nov 2024
VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge Vishwesh Nath Wenqi Li Dong Yang Andriy Myronenko Mingxin Zheng ... Holger Roth Daguang Xu Baris Turkbey Holger Roth Daguang Xu VLM 102 4 0 19 Nov 2024
Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset Yingzi Ma Jiongxiao Wang Fei Wang Siyuan Ma Jiazhao Li ... B. Li Yejin Choi Mengzhao Chen Chaowei Xiao Chaowei Xiao MU 58 6 0 05 Nov 2024
Collective Model Intelligence Requires Compatible Specialization Jyothish Pari Samy Jelassi Pulkit Agrawal MoMe 51 1 0 04 Nov 2024
The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams Yunqi Zhu Wen Tang Ying Sun Xuebing Yang Liyang Dou Yifan Gu Yuanyuan Wu Wensheng Zhang Ying Sun Xuebing Yang LM&MA ELM 46 1 0 31 Oct 2024
R-LLaVA: Improving Med-VQA Understanding through Visual Region of Interest Xupeng Chen Zhixin Lai Kangrui Ruan Shichu Chen Jiaxiang Liu Zuozhu Liu 41 1 0 27 Oct 2024
Frontiers in Intelligent Colonoscopy Ge-Peng Ji Jingyi Liu Peng Xu Nick Barnes Fahad Shahbaz Khan Salman Khan Deng-Ping Fan 49 4 0 22 Oct 2024
Reflexive Guidance: Improving OoDD in Vision-Language Models via Self-Guided Image-Adaptive Concept Generation Seulbi Lee J. Kim Sangheum Hwang LRM 175 0 0 19 Oct 2024
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment Chenhang Cui An Zhang Yiyang Zhou Zhaorun Chen Gelei Deng Huaxiu Yao Tat-Seng Chua 73 4 0 18 Oct 2024
SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding Ying Chen Guoan Wang Yuanfeng Ji Yanjun Li Jin Ye Tianbin Li Bin Zhang Nana Pei Rongshan Yu Yu Qiao VLM LM&MA 61 3 0 15 Oct 2024
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning Yang Bai Yang Zhou Jun Zhou Rick Siow Mong Goh Daniel Ting Yong Liu VLM 52 0 0 09 Oct 2024
LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models Zhenyue Qin Yu Yin Dylan Campbell Xuansheng Wu Ke Zou Yih-Chung Tham Ninghao Liu Xiuzhen Zhang Qingyu Chen 44 1 0 02 Oct 2024
MIO: A Foundation Model on Multimodal Tokens Zekun Wang King Zhu Chunpu Xu Wangchunshu Zhou Jiaheng Liu ... Yuanxing Zhang Ge Zhang Ke Xu Jie Fu Wenhao Huang MLLM AuLLM 60 11 0 26 Sep 2024
MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models Mohammad Shahab Sepehri Zalan Fabian Maryam Soltanolkotabi Mahdi Soltanolkotabi MedIm 58 3 0 23 Sep 2024
MindGuard: Towards Accessible and Sitgma-free Mental Health First Aid via Edge LLM Sijie Ji Xinzhe Zheng Jiawei Sun Renqi Chen Wei Gao Mani Srivastava AI4MH 40 4 0 16 Sep 2024
An Embedding is Worth a Thousand Noisy Labels Francesco Di Salvo Sebastian Doerrich Ines Rieger Christian Ledig NoLa 75 0 0 26 Aug 2024
FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models Xiaochen Wang Jiaqi Wang Houping Xiao Jianfei Chen Fenglong Ma MedIm 69 7 0 17 Aug 2024
Beyond the Hype: A dispassionate look at vision-language models in medical scenario Yang Nan Huichi Zhou Xiaodan Xing Guang Yang 54 3 0 16 Aug 2024
MMRole: A Comprehensive Framework for Developing and Evaluating Multimodal Role-Playing Agents Yanqi Dai Huanran Hu Lei Wang Shengjie Jin X. Chen Zhiwu Lu LLMAG 61 7 0 08 Aug 2024
AgentsCoMerge: Large Language Model Empowered Collaborative Decision Making for Ramp Merging Senkang Hu Zhengru Fang Zihan Fang Yiqin Deng Xianhao Chen Yuguang Fang Sam Kwong 54 14 0 07 Aug 2024
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine Yunfei Xie Ce Zhou Lang Gao Juncheng Wu Xianhang Li ... Sheng Liu Lei Xing James Zou Cihang Xie Yuyin Zhou LM&MA MedIm 74 24 0 06 Aug 2024
Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models Fushuo Huo Wenchao Xu Zhong Zhang Yining Qi Zhicheng Chen Peilin Zhao VLM MLLM 68 19 0 04 Aug 2024
Privacy-preserving datasets by capturing feature distributions with Conditional VAEs Francesco Di Salvo David Tafler Sebastian Doerrich Christian Ledig CML 40 0 0 01 Aug 2024
ExpertAF: Expert Actionable Feedback from Video Kumar Ashutosh Tushar Nagarajan Georgios Pavlakos Kris Kitani Kristen Grauman VGen 44 2 0 01 Aug 2024
Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering Danfeng Guo Sumitaka Honji LRM 82 0 0 31 Jul 2024
Fact-Aware Multimodal Retrieval Augmentation for Accurate Medical Radiology Report Generation Liwen Sun James Zhao Megan Han Chenyan Xiong MedIm 63 8 0 21 Jul 2024
DALL-M: Context-Aware Clinical Data Augmentation with LLMs Chihcheng Hsieh Catarina Moreira Isabel Blanco Nobre Sandra Costa Sousa Chun Ouyang M. Brereton Joaquim A. Jorge Jacinto C. Nascimento 54 0 0 11 Jul 2024
WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering Pingyi Chen Chenglu Zhu Sunyi Zheng Honglin Li Lin Yang 55 7 0 08 Jul 2024
CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation Yuejiao Su Yi Wang Lap-Pui Chau 65 1 0 08 Jul 2024
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy Xiang Li Cristina Mata J. Park Kumara Kahatapitiya Yoo Sung Jang ... Kanchana Ranasinghe R. Burgert Mu Cai Yong Jae Lee Michael S. Ryoo LM&Ro 72 25 0 28 Jun 2024