LISA: Reasoning Segmentation via Large Language Model

1 August 2023

Papers citing "LISA: Reasoning Segmentation via Large Language Model"

50 / 100 papers shown

Title
Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning Minheng Ni Yutao Fan Lei Zhang Wangmeng Zuo LRM AI4CE 33 6 0 04 Oct 2024
FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models Zhipei Xu Xuanyu Zhang Runyi Li Zecheng Tang Qing Huang Jian Zhang AAML 45 18 0 03 Oct 2024
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models Qiaojun Yu Siyuan Huang Xibin Yuan Zhengkai Jiang Ce Hao ... Junbo Wang Liu Liu Hongsheng Li Peng Gao Cewu Lu 75 3 0 30 Sep 2024
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely Siyun Zhao Yuqing Yang Zilong Wang Zhiyuan He Luna Qiu Lili Qiu SyDa RALM 3DV 48 36 0 23 Sep 2024
Embodiment-Agnostic Action Planning via Object-Part Scene Flow Weiliang Tang Jia-Hui Pan Wei Zhan Jianshu Zhou Huaxiu Yao Yun-Hui Liu Masayoshi Tomizuka Mingyu Ding Chi-Wing Fu 63 0 0 16 Sep 2024
Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding Yunze Man Shuhong Zheng Zhipeng Bao M. Hebert Liang-Yan Gui Yu-xiong Wang 78 15 0 05 Sep 2024
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation Yi-Chia Chen Wei-Hua Li Cheng Sun Yu-Chiang Frank Wang Chu-Song Chen VLM 45 11 0 01 Sep 2024
An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation Peiming Guo Sinuo Liu Yanzhao Zhang Dingkun Long Pengjun Xie Meishan Zhang Hao Fei DiffM 50 1 0 16 Aug 2024
Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models Fushuo Huo Wenchao Xu Zhong Zhang Yining Qi Zhicheng Chen Peilin Zhao VLM MLLM 68 19 0 04 Aug 2024
ViLLa: Video Reasoning Segmentation with Large Language Model Rongkun Zheng Lu Qi Xi Chen Yi Wang Kun Wang Yu Qiao Hengshuang Zhao VOS LRM 80 2 0 18 Jul 2024
FabGPT: An Efficient Large Multimodal Model for Complex Wafer Defect Knowledge Queries Yuqi Jiang Xudong Lu Qian Jin Qi Sun Hanming Wu Cheng Zhuo 48 6 0 15 Jul 2024
PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models Can Cui Ruining Deng Junlin Guo Quan Liu Tianyuan Yao Haichun Yang Yuankai Huo VLM MedIm 34 1 0 13 Jul 2024
Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation Tong Shao Zhuotao Tian Hang Zhao Jingyong Su VLM 42 15 0 11 Jul 2024
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs Yusu Qian Hanrong Ye J. Fauconnier Peter Grasch Yinfei Yang Zhe Gan 113 13 0 01 Jul 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 61 25 0 28 Jun 2024
Grounding Multimodal Large Language Models in Actions Andrew Szot Bogdan Mazoure Harsh Agrawal Devon Hjelm Z. Kira Alexander Toshev LM&Ro 40 10 0 12 Jun 2024
Robust Latent Representation Tuning for Image-text Classification Hao Sun Yu Song VLM 60 0 0 10 Jun 2024
F-LMM: Grounding Frozen Large Multimodal Models Size Wu Sheng Jin Wenwei Zhang Lumin Xu Wentao Liu Wei Li Chen Change Loy MLLM 80 12 0 09 Jun 2024
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination Jianing Yang Xuweiyi Chen Nikhil Madaan Madhavan Iyengar Shengyi Qian David Fouhey Joyce Chai 3DV 82 11 0 07 Jun 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 65 32 0 07 Jun 2024
Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model Kuan-Chih Huang Xiangtai Li Lu Qi Shuicheng Yan Ming-Hsuan Yang LRM 76 10 0 27 May 2024
Context-Enhanced Video Moment Retrieval with Large Language Models Weijia Liu Bo Miao Jiuxin Cao Xueling Zhu Bo Liu Mehwish Nasim Ajmal Mian 52 2 0 21 May 2024
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs Keen You Haotian Zhang E. Schoop Floris Weers Amanda Swearngin Jeffrey Nichols Yinfei Yang Zhe Gan MLLM 49 84 0 08 Apr 2024
SegICL: A Multimodal In-context Learning Framework for Enhanced Segmentation in Medical Imaging Lingdong Shen Fangxin Shang Xiaoshuang Huang Yehui Yang Haifeng Huang Shiming Xiang VLM 37 3 0 25 Mar 2024
Beyond Specialization: Assessing the Capabilities of MLLMs in Age and Gender Estimation Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh ELM 63 4 0 04 Mar 2024
SInViG: A Self-Evolving Interactive Visual Agent for Human-Robot Interaction Jie Xu Hanbo Zhang Xinghang Li Huaping Liu Xuguang Lan Tao Kong LM&Ro 38 3 0 19 Feb 2024
Convincing Rationales for Visual Question Answering Reasoning Kun Li G. Vosselman Michael Ying Yang 44 1 0 06 Feb 2024
PartSTAD: 2D-to-3D Part Segmentation Task Adaptation Hyunjin Kim Minhyuk Sung 53 8 0 11 Jan 2024
LISA++: An Improved Baseline for Reasoning Segmentation with Large Language Model Senqiao Yang Tianyuan Qu Xin Lai Zhuotao Tian Bohao Peng Shu Liu Jiaya Jia VLM 23 28 0 28 Dec 2023
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model Shraman Pramanick Guangxing Han Rui Hou Sayan Nag Ser-Nam Lim Nicolas Ballas Qifan Wang Rama Chellappa Amjad Almahairi VLM MLLM 48 29 0 19 Dec 2023
Mask Grounding for Referring Image Segmentation Yong Xien Chng Henry Zheng Yizeng Han Xuchong Qiu Gao Huang ISeg ObjD 50 15 0 19 Dec 2023
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving Wenhai Wang Jiangwei Xie ChuanYang Hu Haoming Zou Jianan Fan ... Lewei Lu Xizhou Zhu Xiaogang Wang Yu Qiao Jifeng Dai 36 127 0 14 Dec 2023
See, Say, and Segment: Teaching LMMs to Overcome False Premises Tsung-Han Wu Giscard Biamby David M. Chan Lisa Dunlap Ritwik Gupta Xudong Wang Joseph E. Gonzalez Trevor Darrell VLM MLLM 44 18 0 13 Dec 2023
Auto-Vocabulary Semantic Segmentation Osman Ülger Maksymilian Kulicki Yuki M. Asano Martin R. Oswald VLM 45 2 0 07 Dec 2023
Language-driven All-in-one Adverse Weather Removal Hao Yang Liyuan Pan Yan Yang Wei Liang VLM KELM 34 18 0 03 Dec 2023
LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models Yanwei Li Chengyao Wang Jiaya Jia VLM MLLM 58 264 0 28 Nov 2023
Paragraph-to-Image Generation with Information-Enriched Diffusion Model Weijia Wu Zhuang Li Yefei He Mike Zheng Shou Chunhua Shen Lele Cheng Yan Li Tingting Gao Di Zhang VLM 141 24 0 24 Nov 2023
PG-Video-LLaVA: Pixel Grounding Large Video-Language Models Shehan Munasinghe Rusiru Thushara Muhammad Maaz H. Rasheed Salman Khan Mubarak Shah Fahad Khan VLM MLLM 35 34 0 22 Nov 2023
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning Junke Wang Lingchen Meng Zejia Weng Bo He Zuxuan Wu Yu-Gang Jiang MLLM VLM 38 94 0 13 Nov 2023
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents Shilong Liu Hao Cheng Haotian Liu Hao Zhang Feng Li ... Hang Su Jun Zhu Lei Zhang Jianfeng Gao Chun-yue Li MLLM VLM 56 106 0 09 Nov 2023
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model Jinjin Xu Liwu Xu Yuzhe Yang Xiang Li Fanyi Wang Yanchun Xie Yi-Jie Huang Yaqian Li MoE MLLM VLM 34 13 0 09 Nov 2023
Beyond Segmentation: Road Network Generation with Multi-Modal LLMs Sumedh Rasal Sanjay K. Boddhu 35 5 0 15 Oct 2023
OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation Zhening Huang Xiaoyang Wu Xi Chen Hengshuang Zhao Lei Zhu Joan Lasenby ISeg 3DPC VLM 60 47 0 01 Sep 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 210 910 0 27 Apr 2023
Learning Context-aware Classifier for Semantic Segmentation Zhuotao Tian Jiequan Cui Li Jiang Xiaojuan Qi Xin Lai Yixin Chen Shu Liu Jiaya Jia 99 22 0 21 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 320 4,300 0 30 Jan 2023
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip Torr 148 310 0 04 Dec 2021
PFENet++: Boosting Few-shot Semantic Segmentation with the Noise-filtered Context-aware Prior Mask Xiaoliu Luo Zhuotao Tian Taiping Zhang Bei Yu Yuan Yan Tang Jiaya Jia 46 37 0 28 Sep 2021
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng Rongrong Ji ObjD 185 286 0 19 Mar 2020
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation Vijay Badrinarayanan Alex Kendall R. Cipolla SSeg 451 15,657 0 02 Nov 2015