Segment Anyword: Mask Prompt Inversion for Open-Set Grounded Segmentation

23 May 2025

Papers citing "Segment Anyword: Mask Prompt Inversion for Open-Set Grounded Segmentation"

50 / 64 papers shown

Title
Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts Zhiwei Lin Yongtao Wang Zhi Tang ObjD VLM 43 4 0 08 Oct 2024
Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features Benyuan Meng Qianqian Xu Zitai Wang Xiaochun Cao Qingming Huang 45 4 0 04 Oct 2024
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation Yi-Chia Chen Wei-Hua Li Cheng Sun Yu-Chiang Frank Wang Chu-Song Chen VLM 52 16 0 01 Sep 2024
Image Segmentation in Foundation Model Era: A Survey Tianfei Zhou Fei Zhang Boyu Chang Wenguan Wang Ye Yuan E. Konukoglu Daniel Cremers VLM 66 7 0 23 Aug 2024
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding Tao Zhang Xiangtai Li Hao Fei Haobo Yuan Shengqiong Wu Shunping Ji Chen Change Loy Shuicheng Yan LRM MLLM VLM 60 56 0 27 Jun 2024
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis Yuxi Ren Xin Xia Yanzuo Lu Jiacheng Zhang Jie Wu Pan Xie Xing Wang Xuefeng Xiao 70 69 0 21 Apr 2024
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model Zheng Zhang Yeyao Ma Enming Zhang Xiang Bai VLM MLLM 47 37 0 21 Mar 2024
Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models Pablo Marcos-Manchón Roberto Alcover-Couso Juan C. Sanmiguel Jose M. Martínez VLM 66 19 0 21 Mar 2024
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models Koichi Namekata Amirmojtaba Sabour Sanja Fidler Seung Wook Kim 81 21 0 22 Jan 2024
GSVA: Generalized Segmentation via Multimodal Large Language Models Zhuofan Xia Dongchen Han Yizeng Han Xuran Pan Shiji Song Gao Huang VLM 66 61 0 15 Dec 2023
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor Shuyang Sun Runjia Li Philip Torr Xiuye Gu Siyang Li VLM CLIP 66 34 0 12 Dec 2023
GLaMM: Pixel Grounding Large Multimodal Model H. Rasheed Muhammad Maaz Sahal Shaji Mullappilly Abdelrahman M. Shaker Salman Khan Hisham Cholakkal Rao M. Anwer Erix Xing Ming-Hsuan Yang Fahad S. Khan MLLM VLM 57 219 0 06 Nov 2023
An Image is Worth Multiple Words: Discovering Object Level Concepts using Multi-Concept Prompt Learning Chen Jin Ryutaro Tanno Amrutha Saseendran Tom Diethe Philip Teare 27 3 0 18 Oct 2023
Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion Junjiao Tian Lavisha Aggarwal Andrea Colaco Z. Kira Mar González-Franco DiffM 40 80 0 23 Aug 2023
Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation Zunnan Xu Zhihong Chen Yong Zhang Yibing Song Xiang Wan Guanbin Li VLM 52 51 0 21 Jul 2023
A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future Chaoyang Zhu Long Chen ObjD VLM 52 35 0 18 Jul 2023
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs Yang Zhao Zhijie Lin Daquan Zhou Zilong Huang Jiashi Feng Bingyi Kang MLLM 44 110 0 17 Jul 2023
Towards Open Vocabulary Learning: A Survey Jianzong Wu Xiangtai Li Shilin Xu Haobo Yuan Henghui Ding ... Jiangning Zhang Yu Tong Xudong Jiang Guohao Li Dacheng Tao ObjD VLM 95 144 0 28 Jun 2023
Kosmos-2: Grounding Multimodal Large Language Models to the World Zhiliang Peng Wenhui Wang Li Dong Y. Hao Shaohan Huang Shuming Ma Furu Wei MLLM ObjD VLM 55 724 0 26 Jun 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 165 4,085 0 09 Jun 2023
Concept Decomposition for Visual Exploration and Inspiration Yael Vinker A. Voynov Daniel Cohen-Or Ariel Shamir DiffM 49 51 0 29 May 2023
Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence Grace Luo Lisa Dunlap Dong Huk Park Aleksander Holynski Trevor Darrell 47 125 0 23 May 2023
Segment Anything A. Kirillov Eric Mintun Nikhila Ravi Hanzi Mao Chloe Rolland ... Spencer Whitehead Alexander C. Berg Wan-Yen Lo Piotr Dollár Ross B. Girshick MLLM VLM 207 7,047 0 05 Apr 2023
Zero-shot Referring Image Segmentation with Global-Local Context Features S. Yu Paul Hongsuck Seo Jeany Son 27 51 0 31 Mar 2023
Localizing Object-level Shape Variations with Text-to-Image Diffusion Models Or Patashnik Daniel Garibi Idan Azuri Hadar Averbuch-Elor Daniel Cohen-Or DiffM 48 112 0 20 Mar 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 236 327 0 08 Mar 2023
Unleashing Text-to-Image Diffusion Models for Visual Perception Wenliang Zhao Yongming Rao Zuyan Liu Benlin Liu Jie Zhou Jiwen Lu ObjD VLM MDE 174 225 0 03 Mar 2023
Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision Jilan Xu Junlin Hou Yuejie Zhang Rui Feng Yi Wang Yu Qiao Weidi Xie VLM 28 83 0 22 Jan 2023
CRYPTEXT: Database and Interactive Toolkit of Human-Written Text Perturbations in the Wild Thai Le Ye Yiran Yifan Hu Dongwon Lee 39 5 0 16 Jan 2023
Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning Jishnu Mukhoti Tsung-Yu Lin Omid Poursaeed Rui Wang Ashish Shah Philip Torr Ser-Nam Lim VLM 88 82 0 09 Dec 2022
SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation Huaishao Luo Junwei Bao Youzheng Wu Xiaodong He Tianrui Li VLM 59 149 0 27 Nov 2022
Perceptual Grouping in Contrastive Vision-Language Models Kanchana Ranasinghe Brandon McKinzie S. S. Ravi Yinfei Yang Alexander Toshev Jonathon Shlens VLM 56 53 0 18 Oct 2022
What the DAAM: Interpreting Stable Diffusion Using Cross Attention Raphael Tang Linqing Liu Akshat Pandey Zhiying Jiang Gefei Yang K. Kumar Pontus Stenetorp Jimmy J. Lin Ferhan Ture 86 174 0 10 Oct 2022
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman 150 2,789 0 25 Aug 2022
Prompt-to-Prompt Image Editing with Cross Attention Control Amir Hertz Ron Mokady J. Tenenbaum Kfir Aberman Yael Pritch Daniel Cohen-Or DiffM 101 1,727 0 02 Aug 2022
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal Yuval Alaluf Yuval Atzmon Or Patashnik Amit H. Bermano Gal Chechik Daniel Cohen-Or 40 1,837 0 02 Aug 2022
Panoptic Scene Graph Generation Jingkang Yang Yi Zhe Ang Zujin Guo Kaiyang Zhou Wayne Zhang Ziwei Liu 80 111 0 22 Jul 2022
Conditional Prompt Learning for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VLM CLIP VPVLM 64 1,310 0 10 Mar 2022
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 240 517 0 22 Feb 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 164 15,081 0 20 Dec 2021
Extract Free Dense Labels from CLIP Chong Zhou Chen Change Loy Bo Dai VLM CLIP 92 467 0 02 Dec 2021
CRIS: CLIP-Driven Referring Image Segmentation Zhaoqing Wang Yu Lu Qiang Li Xunqiang Tao Yan Guo Ming Gong Tongliang Liu VLM 75 367 0 30 Nov 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 398 2,340 0 02 Sep 2021
Vision-Language Transformer and Query Generation for Referring Segmentation Henghui Ding Chang-rui Liu Suchen Wang Xudong Jiang 47 258 0 12 Aug 2021
Locate then Segment: A Strong Pipeline for Referring Image Segmentation Ya Jing Tao Kong Wei Wang Liang Wang Lei Li Tieniu Tan 41 133 0 30 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 358 28,659 0 26 Feb 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 279 4,873 0 24 Feb 2021
GAN Inversion: A Survey Weihao Xia Yulun Zhang Yujiu Yang Jing-Hao Xue Bolei Zhou Ming-Hsuan Yang DiffM 117 509 0 14 Jan 2021
Denoising Diffusion Implicit Models Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 72 7,166 0 06 Oct 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 145 17,550 0 19 Jun 2020