Diffusion Feedback Helps CLIP See Better

Diffusion Feedback Helps CLIP See Better

29 July 2024

Jing Liu

Papers citing "Diffusion Feedback Helps CLIP See Better"

18 / 18 papers shown

Title
WIR3D: Visually-Informed and Geometry-Aware 3D Shape Abstraction Richard Liu Daniel Fu Noah Tan Itai Lang Rana Hanocka 3DH 45 0 0 07 May 2025
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer Weixian Lei Jiacong Wang Haochen Wang X. Li Jun Hao Liew Jiashi Feng Zilong Huang 28 2 0 14 Apr 2025
OCRT: Boosting Foundation Models in the Open World with Object-Concept-Relation Triad Luyao Tang Yuxuan Yuan C. L. P. Chen Zeyu Zhang Yue Huang Kun Zhang 55 0 0 24 Mar 2025
SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models Subhadeep Koley Tapas Kumar Dutta Aneeshan Sain Pinaki Nath Chowdhury A. Bhunia Yi-Zhe Song VLM 66 0 0 18 Mar 2025
What's in a Latent? Leveraging Diffusion Latent Space for Domain Generalization Xavier Thomas Deepti Ghadiyaram DiffM 92 0 0 09 Mar 2025
Unleashing the Potential of Pre-Trained Diffusion Models for Generalizable Person Re-Identification Jiachen Li Xiaojin Gong DiffM 84 0 0 10 Feb 2025
DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding Hao Wu Zhihang Zhong Xiao Sun DiffM 72 0 0 02 Dec 2024
$$\textit{Revelio}$: Interpreting and leveraging semantic information in diffusion models$ $\textit{Revelio}$ : Interpreting and leveraging semantic information in diffusion models Dahye Kim Xavier Thomas Deepti Ghadiyaram 83 4 0 23 Nov 2024
Multilingual Vision-Language Pre-training for the Remote Sensing Domain João Daniel Silva João Magalhães D. Tuia Bruno Martins CLIP VLM 42 1 0 30 Oct 2024
Law of Vision Representation in MLLMs Shijia Yang Bohan Zhai Quanzeng You Jianbo Yuan Hongxia Yang Chenfeng Xu 40 9 0 29 Aug 2024
Diffusion-TTA: Test-time Adaptation of Discriminative Models via Generative Feedback Mihir Prabhudesai Tsung-Wei Ke Alexander C. Li Deepak Pathak Katerina Fragkiadaki TTA 32 15 0 27 Nov 2023
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 158 1,016 0 25 Nov 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 223 320 0 08 Mar 2023
Unleashing Text-to-Image Diffusion Models for Visual Perception Wenliang Zhao Yongming Rao Zuyan Liu Benlin Liu Jie Zhou Jiwen Lu ObjD VLM MDE 160 215 0 03 Mar 2023
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 189 499 0 22 Feb 2022
Label-Efficient Semantic Segmentation with Diffusion Models Dmitry Baranchuk Ivan Rubachev A. Voynov Valentin Khrulkov Artem Babenko DiffM VLM 195 516 0 06 Dec 2021
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 259 558 0 28 Sep 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 898 0 28 Apr 2021