VLT: Vision-Language Transformer and Query Generation for Referring Segmentation

28 October 2022

Papers citing "VLT: Vision-Language Transformer and Query Generation for Referring Segmentation"

34 / 84 papers shown

Title
EAVL: Explicitly Align Vision and Language for Referring Image Segmentation Yimin Yan Xingjian He Wenxuan Wang Sihan Chen Jiaheng Liu ObjD VLM 29 2 0 18 Aug 2023
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions Henghui Ding Chang Liu Shuting He Xudong Jiang Chen Change Loy VOS 44 101 0 16 Aug 2023
Spectrum-guided Multi-granularity Referring Video Object Segmentation Bo Miao Bennamoun Yongsheng Gao Ajmal Saeed Mian VOS 42 34 0 25 Jul 2023
Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation Zunnan Xu Zhihong Chen Yong Zhang Yibing Song Xiang Wan Guanbin Li VLM 35 47 0 21 Jul 2023
Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions Yui Iioka Y. Yoshida Yuiga Wada Shumpei Hatanaka K. Sugiura DiffM 47 5 0 17 Jul 2023
Hierarchical Open-vocabulary Universal Image Segmentation Xudong Wang Shufang Li Konstantinos Kallidromitis Yu Kato Kazuki Kozuka Trevor Darrell VLM OCL 43 36 0 03 Jul 2023
Towards Open Vocabulary Learning: A Survey Jianzong Wu Xiangtai Li Shilin Xu Haobo Yuan Henghui Ding ... Jiangning Zhang Yu Tong Xudong Jiang Guohao Li Dacheng Tao ObjD VLM 34 136 0 28 Jun 2023
Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation Shuting He Henghui Ding Wei Jiang VLM 70 35 0 19 Jun 2023
Extending CLIP's Image-Text Alignment to Referring Image Segmentation Seoyeon Kim Minguk Kang Dongwon Kim Jaesik Park Suha Kwak VLM 27 10 0 14 Jun 2023
GRES: Generalized Referring Expression Segmentation Chang Liu Henghui Ding Xudong Jiang 34 139 0 01 Jun 2023
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation Zhuoyan Luo Yicheng Xiao Yong-Jin Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang VOS 28 32 0 26 May 2023
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao VOS 22 30 0 25 May 2023
Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation Chang Liu Henghui Ding Yulun Zhang Xudong Jiang 26 47 0 24 May 2023
Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud Semantic Segmentation Shuting He Xudong Jiang Wei Jiang Henghui Ding 3DPC 32 33 0 23 May 2023
Semantic-Promoted Debiasing and Background Disambiguation for Zero-Shot Instance Segmentation Shuting He Henghui Ding Wei Jiang ISeg 37 21 0 22 May 2023
Advancing Referring Expression Segmentation Beyond Single Image YiXuan Wu Zhao Zhang Xie Chi Feng Zhu Rui Zhao VLM 34 18 0 21 May 2023
Transformer-Based Visual Segmentation: A Survey Xiangtai Li Henghui Ding Haobo Yuan Wenwei Zhang Jiangmiao Pang Guangliang Cheng Kai-xiang Chen Ziwei Liu Chen Change Loy ViT MedIm 42 132 0 19 Apr 2023
MOSE: A New Dataset for Video Object Segmentation in Complex Scenes Henghui Ding Chang Liu Shuting He Xudong Jiang Philip H. S. Torr S. Bai VOS 27 132 0 03 Feb 2023
Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation Jianzong Wu Xiangtai Li Henghui Ding Xia Li Guangliang Cheng Yu Tong Chen Change Loy VLM 85 31 0 02 Jan 2023
Self-Regularized Prototypical Network for Few-Shot Semantic Segmentation Henghui Ding Hui Zhang Xudong Jiang 56 59 0 30 Oct 2022
Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuning Weicong Liang Yuhui Yuan Henghui Ding Xiao Luo Weihong Lin Ding Jia Zheng-Wei Zhang Chao Zhang Hanhua Hu 29 25 0 03 Oct 2022
Towards Robust Referring Image Segmentation Jianzong Wu Xiangtai Li Xia Li Henghui Ding Yu Tong Dacheng Tao 3DV 37 40 0 20 Sep 2022
LViT: Language meets Vision Transformer in Medical Image Segmentation Zihan Li Yunxiang Li Qingde Li Puyang Wang Dazhou Guo Le Lu D. Jin You Zhang Qingqi Hong VLM MedIm 59 134 0 29 Jun 2022
Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral Compressive Imaging Yuanhao Cai Jing Lin Haoqian Wang Xin Yuan Henghui Ding Yulun Zhang Radu Timofte Luc Van Gool 80 116 0 20 May 2022
Learning Local and Global Temporal Contexts for Video Semantic Segmentation Guolei Sun Yun Liu Henghui Ding Min Wu Luc Van Gool 30 32 0 07 Apr 2022
SAC-GAN: Structure-Aware Image Composition Hang Zhou Rui Ma Ling-Xiao Zhang Lina Gao Ali Mahdavi-Amiri Haotong Zhang GAN 35 7 0 13 Dec 2021
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 148 306 0 04 Dec 2021
Two-stage Rule-induction Visual Reasoning on RPMs with an Application to Video Prediction Wentao He Jianfeng Ren Ruibin Bai Xudong Jiang LRM 35 5 0 24 Nov 2021
Towards Language-guided Visual Recognition via Dynamic Convolutions Gen Luo Yiyi Zhou Xiaoshuai Sun Yongjian Wu Yue Gao Rongrong Ji ObjD 33 19 0 17 Oct 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,781 0 24 Feb 2021
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng Rongrong Ji ObjD 173 286 0 19 Mar 2020
A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension Yue Liao Si Liu Guanbin Li Fei-Yue Wang Yanjie Chen Chao Qian Bo-wen Li ObjD 62 174 0 16 Sep 2019
Boundary-Aware Feature Propagation for Scene Segmentation Henghui Ding Xudong Jiang A. Liu N. Magnenat-Thalmann G. Wang 137 255 0 31 Aug 2019
Deep High-Resolution Representation Learning for Visual Recognition Jingdong Wang Ke Sun Tianheng Cheng Borui Jiang Chaorui Deng ... Yadong Mu Mingkui Tan Xinggang Wang Wenyu Liu Bin Xiao 195 3,531 0 20 Aug 2019