Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video
Object Segmentation

Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation

18 March 2024

Xuelu Feng

Junsong Yuan

Chunming Qiao

Gang Hua

Papers citing "Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation"

12 / 12 papers shown

Title
Studying Image Diffusion Features for Zero-Shot Video Object Segmentation Thanos Delatolas Vicky S. Kalogeiton Dim P. Papadopoulos DiffM VOS 48 1 0 07 Apr 2025
Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation Suhwan Cho Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun Lee VOS 77 0 0 05 Mar 2025
SMITE: Segment Me In TimE Amirhossein Alimohammadi Sauradip Nag Saeid Asgari Taghanaki Andrea Tagliasacchi Ghassan Hamarneh Ali Mahdavi-Amiri VLM VOS 128 2 0 20 Feb 2025
MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation Fu Rong Meng Lan Q. Zhang L. Zhang VOS VGen 73 1 0 23 Jan 2025
ReferEverything: Towards Segmenting Everything We Can Speak of in Videos Anurag Bagchi Zhipeng Bao Yu-xiong Wang P. Tokmakov Martial Hebert VOS 37 0 0 30 Oct 2024
OmniVid: A Generative Framework for Universal Video Understanding Junke Wang Dongdong Chen Chong Luo Bo He Lu Yuan Zuxuan Wu Yu-Gang Jiang VLM VGen 69 14 0 26 Mar 2024
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 158 1,012 0 25 Nov 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 223 319 0 08 Mar 2023
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation Henghui Ding Chang Liu Suchen Wang Xudong Jiang 71 115 0 28 Oct 2022
Semantic Image Synthesis via Diffusion Models Weilun Wang Weilun Wang Wen-gang Zhou Dongdong Chen Dong Chen Lu Yuan Houqiang Li DiffM 225 176 0 30 Jun 2022
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 143 306 0 04 Dec 2021
Palette: Image-to-Image Diffusion Models Chitwan Saharia William Chan Huiwen Chang Chris A. Lee Jonathan Ho Tim Salimans David J. Fleet Mohammad Norouzi DiffM VLM 342 1,588 0 10 Nov 2021