CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

12 December 2023

Shuyang Sun

Papers citing "CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor"

21 / 21 papers shown

Title
RESAnything: Attribute Prompting for Arbitrary Referring Segmentation Ruiqi Wang Hao Zhang VLM 56 0 0 03 May 2025
LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation Jiachen Li Qing Xie Xiaohan Yu Hongyun Wang Jinyu Xu Yongjian Liu ObjD 78 0 0 20 Apr 2025
Hybrid Global-Local Representation with Augmented Spatial Guidance for Zero-Shot Referring Image Segmentation Ting Liu Siyuan Li 44 0 0 01 Apr 2025
SPNeRF: Open Vocabulary 3D Neural Scene Segmentation with Superpoints Weiwen Hu Niccolò Parodi Marcus Zepp I. Feldmann O. Schreer Peter Eisert VLM 141 0 0 19 Mar 2025
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation Chanyoung Kim Dayun Ju Woojung Han Ming-Hsuan Yang Seong Jae Hwang VLM VOS 79 0 0 26 Nov 2024
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation Sule Bai Yong-Jin Liu Yifei Han Haoji Zhang Yansong Tang VLM 79 3 0 24 Nov 2024
Gotta Hear Them All: Sound Source Aware Vision to Audio Generation Wei Guo Heng Wang Jianbo Ma Weidong Cai DiffM 90 3 0 23 Nov 2024
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements M. Arda Aydın Efe Mert Çırpar Elvin Abdinli Gözde B. Ünal Y. Sahin VLM 71 0 0 18 Nov 2024
DreamBeast: Distilling 3D Fantastical Animals with Part-Aware Knowledge Transfer Runjia Li Junlin Han Luke Melas-Kyriazi Chunyi Sun Zhaochong An Zhongrui Gui Shuyang Sun Philip Torr Tomas Jakab 40 1 0 12 Sep 2024
iSeg: An Iterative Refinement-based Framework for Training-free Segmentation Lin Sun Jiale Cao J. Xie F. Khan Yanwei Pang DiffM 43 1 0 05 Sep 2024
Learning Visual Grounding from Generative Vision and Language Model Shijie Wang Dahun Kim A. Taalimi Chen Sun Weicheng Kuo ObjD 36 5 0 18 Jul 2024
CLIP-S $^4$ : Language-Guided Self-Supervised Semantic Segmentation Wenbin He Suphanut Jamonnak Liangke Gou Liu Ren VLM 40 31 0 01 May 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 223 320 0 08 Mar 2023
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 189 499 0 22 Feb 2022
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 148 306 0 04 Dec 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 320 5,785 0 29 Apr 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 899 0 28 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 304 3,708 0 11 Feb 2021
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,746 0 26 Sep 2016
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 253 1,828 0 18 Aug 2016
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 296 39,198 0 01 Sep 2014