CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

2 October 2023

Xiangtai Li

Wentao Liu

Papers citing "CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction"

20 / 20 papers shown

Title
Split Matching for Inductive Zero-shot Semantic Segmentation Jialei Chen Xu Zheng Dongyue Li Chong Yi Seigo Ito D. Paudel Luc Van Gool Hiroshi Murase Daisuke Deguchi VLM 56 0 0 08 May 2025
FG-CLIP: Fine-Grained Visual and Textual Alignment Chunyu Xie Bin Wang Fanjing Kong Jincheng Li Dawei Liang Gengshen Zhang Dawei Leng Yuhui Yin CLIP VLM 53 0 0 08 May 2025
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception Junjie Wang Bin Chen Yulin Li Bin Kang Yulin Chen Zhuotao Tian VLM 38 0 0 07 May 2025
Decoupled Global-Local Alignment for Improving Compositional Understanding Xiaoxing Hu Kaicheng Yang Jianmin Wang Haoran Xu Ziyong Feng Yansen Wang VLM 153 0 0 23 Apr 2025
Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection Chuhan Zhang Chaoyang Zhu Pingcheng Dong Long Chen Dong Zhang ObjD VLM 170 0 0 14 Mar 2025
Contrastive Localized Language-Image Pre-Training Hong-You Chen Zhengfeng Lai Hao Zhang Xuben Wang Marcin Eichner Keen You Meng Cao Bowen Zhang Yuqing Yang Zhe Gan CLIP VLM 68 7 0 20 Feb 2025
Modulating CNN Features with Pre-Trained ViT Representations for Open-Vocabulary Object Detection Xiangyu Gao Yu Dai Benliu Qiu Hongliang Li Heqian Qiu Hongliang Li ObjD VLM 162 0 0 28 Jan 2025
Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning Zhifang Zhang Shuo He Bingquan Shen Lei Feng Lei Feng AAML 55 0 0 29 Dec 2024
TIPS: Text-Image Pretraining with Spatial awareness Kevis-Kokitsi Maninis Kaifeng Chen Soham Ghosh Arjun Karpur Koert Chen ... Jan Dlabal Dan Gnanapragasam Mojtaba Seyedhosseini Howard Zhou Andre Araujo VLM 35 3 0 21 Oct 2024
Locality Alignment Improves Vision-Language Models Ian Covert Tony Sun James Zou Tatsunori Hashimoto VLM 70 4 0 14 Oct 2024
Revisiting Prompt Pretraining of Vision-Language Models Zhenyuan Chen Lingfeng Yang Shuo Chen Zhaowei Chen Jiajun Liang Xiang Li MLLM VPVLM VLM 43 1 0 10 Sep 2024
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation Xi Chen Haosen Yang Sheng Jin Xiatian Zhu H. Yao VLM 29 3 0 05 Sep 2024
CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding Guibiao Liao Jiankun Li Zhenyu Bao Xiaoqing Ye Jingdong Wang Qing Li Kanglin Liu 3DGS 43 14 0 22 Apr 2024
Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation Sina Hajimiri Ismail Ben Ayed Jose Dolz VLM 41 22 0 12 Apr 2024
O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation Muer Tie Julong Wei Zhengjun Wang Ke Wu Shansuai Yuan Kaizhao Zhang Jie Jia Jieru Zhao Zhongxue Gan Wenchao Ding 40 7 0 10 Apr 2024
Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection Luting Wang Yi Liu Penghui Du Zihan Ding Yue Liao Qiaosong Qi Biaolong Chen Si Liu ObjD VLM 70 62 0 10 Mar 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 223 320 0 08 Mar 2023
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation Yue Han Jiangning Zhang Zhucun Xue Chao Xu Xintian Shen Yabiao Wang Chengjie Wang Yong Liu Xiangtai Li 42 17 0 03 Jan 2023
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 899 0 28 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 322 3,708 0 11 Feb 2021