CRIS: CLIP-Driven Referring Image Segmentation

30 November 2021

Papers citing "CRIS: CLIP-Driven Referring Image Segmentation"

50 / 259 papers shown

Title
Empowering Segmentation Ability to Multi-modal Large Language Models Yuqi Yang Peng-Tao Jiang Jing Wang Hao Zhang Kai Zhao Jinwei Chen Bo-wen Li LRM VLM 32 3 0 21 Mar 2024
Compositional Kronecker Context Optimization for Vision-Language Models Kun Ding Xiaohui Li Qiang Yu Ying Wang Haojian Zhang Shiming Xiang VLM 44 0 0 18 Mar 2024
LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival Yuanxin Zhao Mi Zhang Bingnan Yang Zhan Zhang Jiaju Kang Jianya Gong 35 2 0 16 Mar 2024
Rethinking Referring Object Removal Xiangtian Xue Jiasong Wu Youyong Kong L. Senhadji Huazhong Shu DiffM 37 0 0 14 Mar 2024
Boosting Image Restoration via Priors from Pre-trained Models Xiaogang Xu Shu Kong Tao Hu Zhe Liu Ruixing Wang VLM DiffM 41 2 0 11 Mar 2024
Multimodal Infusion Tuning for Large Models Hao Sun Yu Song Xinyao Yu Jiaqing Liu Yen-Wei Chen Lanfen Lin VLM 40 0 0 08 Mar 2024
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception Jun-Yan He Yifan Wang Lijun Wang Huchuan Lu Jun-Yan He Jinpeng Lan Bin Luo Xuansong Xie MLLM VLM 37 19 0 05 Mar 2024
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation Yichi Zhang Ziqiao Ma Xiaofeng Gao Suhaila Shakiah Qiaozi Gao Joyce Chai MLLM VLM 45 39 0 26 Feb 2024
LLMBind: A Unified Modality-Task Integration Framework Bin Zhu Munan Ning Peng Jin Bin Lin Jinfa Huang ... Junwu Zhang Zhenyu Tang Mingjun Pan Xing Zhou Li-ming Yuan MLLM 40 6 0 22 Feb 2024
Language-guided Image Reflection Separation Haofeng Zhong Yuchen Hong Shuchen Weng Jinxiu Liang Boxin Shi 29 7 0 19 Feb 2024
Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions Wenxuan Wang Yisi Zhang Xingjian He Yichen Yan Zijia Zhao Xinlong Wang Jing Liu LM&Ro 27 4 0 17 Feb 2024
Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment Angelos Zavras Dimitrios Michail Begüm Demir Ioannis Papoutsis VLM 35 12 0 15 Feb 2024
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision Zhaoqing Wang Xiaobo Xia Ziye Chen Xiao He Yandong Guo Biwei Huang Tongliang Liu VLM 29 11 0 14 Feb 2024
Multi-source-free Domain Adaptation via Uncertainty-aware Adaptive Distillation Yaxuan Song Jianan Fan Dongnan Liu Weidong Cai 23 0 0 09 Feb 2024
RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner Ying Zang Chenglong Fu Runlong Cao Didi Zhu Min Zhang Wenjun Hu Lanyun Zhu Tianrun Chen 32 6 0 08 Feb 2024
Generalizable Entity Grounding via Assistance of Large Language Model Lu Qi Yi-Wen Chen Lehan Yang Tiancheng Shen Xiangtai Li Weidong Guo Yu-Syuan Xu Ming-Hsuan Yang VLM 69 9 0 04 Feb 2024
ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation Shengze Li Jianjian Cao Peng Ye Yuhan Ding Chongjun Tu Tao Chen VLM 27 30 0 23 Jan 2024
Collaborative Position Reasoning Network for Referring Image Segmentation Jianjian Cao Beiya Dai Yulin Li Xiameng Qin Jingdong Wang 33 0 0 22 Jan 2024
CLIP-Driven Semantic Discovery Network for Visible-Infrared Person Re-Identification Xiaoyan Yu Neng Dong Liehuang Zhu Hao Peng Dapeng Tao 36 7 0 11 Jan 2024
FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding Xingxing Zuo Pouya Samangouei Yunwen Zhou Yan Di Mingyang Li 3DGS 24 46 0 03 Jan 2024
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces Jiannan Wu Yi-Xin Jiang Bin Yan Huchuan Lu Zehuan Yuan Ping Luo VOS 37 17 0 25 Dec 2023
FoodLMM: A Versatile Food Assistant using Large Multi-modal Model Yuehao Yin Huiyan Qi B. Zhu Jingjing Chen Yu-Gang Jiang Chong-Wah Ngo 26 19 0 22 Dec 2023
Weakly Supervised Semantic Segmentation for Driving Scenes Dongseob Kim Seungho Lee Junsuk Choe Hyunjung Shim 15 3 0 21 Dec 2023
Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation Wenhao Xu Rongtao Xu Changwei Wang Shibiao Xu Li Guo Man Zhang Xiaopeng Zhang VLM 36 10 0 20 Dec 2023
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model Shraman Pramanick Guangxing Han Rui Hou Sayan Nag Ser-Nam Lim Nicolas Ballas Qifan Wang Rama Chellappa Amjad Almahairi VLM MLLM 48 29 0 19 Dec 2023
Mask Grounding for Referring Image Segmentation Yong Xien Chng Henry Zheng Yizeng Han Xuchong Qiu Gao Huang ISeg ObjD 37 15 0 19 Dec 2023
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation Sihan Liu Yiwei Ma Xiaoqing Zhang Haowei Wang Jiayi Ji Xiaoshuai Sun Rongrong Ji 24 38 0 19 Dec 2023
GSVA: Generalized Segmentation via Multimodal Large Language Models Zhuofan Xia Dongchen Han Yizeng Han Xuran Pan Shiji Song Gao Huang VLM 39 55 0 15 Dec 2023
EVP: Enhanced Visual Perception using Inverse Multi-Attentive Feature Refinement and Regularized Image-Text Alignment M. Lavrenyuk Shariq Farooq Bhat Matthias Müller Peter Wonka ObjD MDE 31 9 0 13 Dec 2023
See, Say, and Segment: Teaching LMMs to Overcome False Premises Tsung-Han Wu Giscard Biamby David M. Chan Lisa Dunlap Ritwik Gupta Xudong Wang Joseph E. Gonzalez Trevor Darrell VLM MLLM 39 18 0 13 Dec 2023
Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation Wenxuan Wang Tongtian Yue Yisi Zhang Longteng Guo Xingjian He Xinlong Wang Jing Liu ObjD 19 12 0 13 Dec 2023
CLIP in Medical Imaging: A Comprehensive Survey Zihao Zhao Yuxiao Liu Han Wu Yonghao Li Sheng Wang L. Teng Disheng Liu Zhiming Cui Qian Wang Dinggang Shen CLIP MedIm LM&MA VLM 31 2 0 12 Dec 2023
Foundation Models for Weather and Climate Data Understanding: A Comprehensive Survey Shengchao Chen Guodong Long Jing Jiang Dikai Liu Chengqi Zhang SyDa AI4CE 44 24 0 05 Dec 2023
Universal Segmentation at Arbitrary Granularity with Language Instruction Yong Liu Cairong Zhang Yitong Wang Jiahao Wang Yujiu Yang Yansong Tang VLM VOS 55 15 0 04 Dec 2023
PixelLM: Pixel Reasoning with Large Multimodal Model Zhongwei Ren Zhicheng Huang Yunchao Wei Yao-Min Zhao Dongmei Fu Jiashi Feng Xiaojie Jin VLM MLLM LRM 28 82 0 04 Dec 2023
Towards Generalizable Referring Image Segmentation via Target Prompt and Visual Coherence Yajie Liu Pu Ge Haoxiang Ma Shichao Fan Qingjie Liu Di Huang Yunhong Wang 23 0 0 01 Dec 2023
Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation Minhyeok Lee Dogyoon Lee Jungho Lee Suhwan Cho Heeseung Choi Ig-Jae Kim Sangyoun Lee 36 0 0 29 Nov 2023
Explaining CLIP's performance disparities on data from blind/low vision users Daniela Massiceti Camilla Longden Agnieszka Slowik Samuel Wills Martin Grayson C. Morrison VLM 26 9 0 29 Nov 2023
End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding Kwanyoung Kim Y. Oh S. Park H. Byun Joongyo Lee Jin Sung Kim Yong Bae Kim Jong Chul Ye 25 0 0 27 Nov 2023
RISAM: Referring Image Segmentation via Mutual-Aware Attention Features Mengxi Zhang Yiming Liu Xiangjun Yin Huanjing Yue Jingyu Yang 39 0 0 27 Nov 2023
Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition Yifei Chen Dapeng Chen Ruijin Liu Sai Zhou Wenyuan Xue Wei Peng 33 6 0 27 Nov 2023
Spatially Covariant Image Registration with Text Prompts Xiang Chen Min Liu Rongguang Wang Renjiu Hu Dongdong Liu Gaolei Li Hang Zhang MedIm 35 9 0 27 Nov 2023
Soulstyler: Using Large Language Model to Guide Image Style Transfer for Target Object Junhao Chen Peng Rong Jingbo Sun Chao Li Xiang Li Hongwu Lv VLM 33 2 0 22 Nov 2023
VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search Shuting He Hao Luo Wei Jiang Xudong Jiang Henghui Ding 24 39 0 13 Nov 2023
Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter Georgios Tziafas Yucheng Xu Arushi Goel M. Kasaei Zhibin Li H. Kasaei 35 23 0 09 Nov 2023
NExT-Chat: An LMM for Chat, Detection and Segmentation Ao Zhang Yuan Yao Wei Ji Zhiyuan Liu Tat-Seng Chua MLLM VLM 48 52 0 08 Nov 2023
GLaMM: Pixel Grounding Large Multimodal Model H. Rasheed Muhammad Maaz Sahal Shaji Mullappilly Abdelrahman M. Shaker Salman Khan Hisham Cholakkal Rao M. Anwer Erix Xing Ming-Hsuan Yang Fahad S. Khan MLLM VLM 47 203 0 06 Nov 2023
Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection Tao He Lianli Gao Jingkuan Song Yuan-Fang Li ViT 31 11 0 03 Nov 2023
Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic Narrative Grounding Tianrui Hui Zihan Ding Junshi Huang Xiaoming Wei Xiaolin K. Wei Jiao Dai Jizhong Han Si Liu 37 4 0 02 Nov 2023
Towards Omni-supervised Referring Expression Segmentation Minglang Huang Yiyi Zhou Gen Luo Guannan Jiang Weilin Zhuang Xiaoshuai Sun 24 0 0 01 Nov 2023