F-LMM: Grounding Frozen Large Multimodal Models

9 June 2024

Wei Li

Papers citing "F-LMM: Grounding Frozen Large Multimodal Models"

22 / 22 papers shown

Title
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding Tao Zhang X. Li Zilong Huang Y. Li Weixian Lei XueQing Deng Shihao Chen S. Ji Jiashi Feng MLLM LRM 60 2 0 14 Apr 2025
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation Size Wu W. Zhang Lumin Xu Sheng Jin Zhonghua Wu Qingyi Tao Wentao Liu Wei Li Chen Change Loy VGen 150 2 0 27 Mar 2025
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding Yan Tai Luhao Zhu Zhiqiang Chen Ynan Ding Yiying Dong Xiaohong Liu Guodong Guo MLLM ObjD 54 0 0 10 Mar 2025
Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding Seil Kang Jinyeong Kim Junhyeok Kim Seong Jae Hwang VLM 87 2 0 08 Mar 2025
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos Haobo Yuan X. Li Tao Zhang Zilong Huang Shilin Xu S. Ji Yunhai Tong Lu Qi Jiashi Feng Ming Yang VLM 94 11 0 07 Jan 2025
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 55 3 0 31 Dec 2024
HyperSeg: Towards Universal Visual Segmentation with Large Language Model Cong Wei Yujie Zhong Haoxian Tan Y. Liu Zheng Zhao Jie Hu Yujiu Yang VOS MLLM VLM LRM 88 1 0 26 Nov 2024
Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision Shengcao Cao Liang-Yan Gui Yu-Xiong Wang 44 3 0 10 Oct 2024
Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model Li Zhou Xu Yuan Zenghui Sun Zikun Zhou Jingsong Lan VLM MLLM 116 3 0 20 Sep 2024
Image Segmentation in Foundation Model Era: A Survey Tianfei Zhou Fei Zhang Boyu Chang Wenguan Wang Ye Yuan E. Konukoglu Daniel Cremers VLM 42 4 0 23 Aug 2024
Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation Seonghoon Yu Paul Hongsuck Seo Jeany Son DiffM 54 4 0 10 Jul 2024
LaSagnA: Language-based Segmentation Assistant for Complex Queries Cong Wei Haoxian Tan Yujie Zhong Yujiu Yang Lin Ma 38 14 0 12 Apr 2024
Gemma: Open Models Based on Gemini Research and Technology Gemma Team Gemma Team Thomas Mesnard Cassidy Hardin Robert Dadashi Surya Bhupatiraju ... Armand Joulin Noah Fiedel Evan Senter Alek Andreev Kathleen Kenealy VLM LLMAG 131 428 0 13 Mar 2024
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation Jiahao Xie Wei Li Xiangtai Li Ziwei Liu Yew-Soon Ong Chen Change Loy DiffM VLM 66 35 0 22 Sep 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 208 900 0 27 Apr 2023
Instruction Tuning with GPT-4 Baolin Peng Chunyuan Li Pengcheng He Michel Galley Jianfeng Gao SyDa ALM LM&MA 159 579 0 06 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 270 4,229 0 30 Jan 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,915 0 04 Mar 2022
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 141 306 0 04 Dec 2021
Panoptic Narrative Grounding Cristina González Nicolás Ayobi Isabela Hernández José Hernández Jordi Pont-Tuset Pablo Arbeláez 79 22 0 10 Sep 2021
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng Rongrong Ji ObjD 170 286 0 19 Mar 2020
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 294 75,800 0 18 May 2015