Referring Expression Object Segmentation with Caption-Aware Consistency

10 October 2019

Yi-Wen Chen

Yi-Hsuan Tsai

Tiantian Wang

Yen-Yu Lin

Ming-Hsuan Yang

EgoV

ArXiv PDF HTML

Papers citing "Referring Expression Object Segmentation with Caption-Aware Consistency"

20 / 20 papers shown

Title
SwimVG: Step-wise Multimodal Fusion and Adaption for Visual Grounding Liangtao Shi Ting Liu Xiantao Hu Yue Hu Quanjun Yin Richang Hong ObjD 60 0 0 24 Feb 2025
MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension Ting Liu Zunnan Xu Yue Hu Liangtao Shi Zhiqiang Wang Quanjun Yin 72 2 0 03 Jan 2025
Collaborative Position Reasoning Network for Referring Image Segmentation Jianjian Cao Beiya Dai Yulin Li Xiameng Qin Jingdong Wang 38 0 0 22 Jan 2024
Temporal Collection and Distribution for Referring Video Object Segmentation Jiajin Tang Ge Zheng Sibei Yang VOS 36 15 0 07 Sep 2023
Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation Zunnan Xu Zhihong Chen Yong Zhang Yibing Song Xiang Wan Guanbin Li VLM 35 49 0 21 Jul 2023
Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation Chang Liu Henghui Ding Yulun Zhang Xudong Jiang 36 47 0 24 May 2023
Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors R. Burgert Kanchana Ranasinghe Xiang Li Michael S. Ryoo DiffM VLM 39 37 0 23 Nov 2022
A Unified Mutual Supervision Framework for Referring Expression Segmentation and Generation Shijia Huang Feng Li Hao Zhang Siyi Liu Lei Zhang Liwei Wang 32 5 0 15 Nov 2022
Instance-Specific Feature Propagation for Referring Segmentation Chang Liu Xudong Jiang Henghui Ding ISeg 30 55 0 26 Apr 2022
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip Torr 148 310 0 04 Dec 2021
CRIS: CLIP-Driven Referring Image Segmentation Zhaoqing Wang Yu Lu Qiang Li Xunqiang Tao Yan Guo Ming Gong Tongliang Liu VLM 63 361 0 30 Nov 2021
MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation Zizhang Li Mengmeng Wang Jianbiao Mei Yong Liu 20 18 0 21 Nov 2021
Panoptic Narrative Grounding Cristina González Nicolás Ayobi Isabela Hernández José Hernández Jordi Pont-Tuset Pablo Arbeláez 93 22 0 10 Sep 2021
End-to-end Multi-modal Video Temporal Grounding Yi-Wen Chen Yi-Hsuan Tsai Ming-Hsuan Yang 11 51 0 12 Jul 2021
Referring Transformer: A One-step Approach to Multi-task Visual Grounding Muchen Li Leonid Sigal ObjD 13 189 0 06 Jun 2021
Cross-Modal Progressive Comprehension for Referring Segmentation Si Liu Tianrui Hui Shaofei Huang Yunchao Wei Yue Liu Guanbin Li EgoV VOS 28 124 0 15 May 2021
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation Guang Feng Zhiwei Hu Lihe Zhang Huchuan Lu EgoV 25 169 0 05 May 2021
Locate then Segment: A Strong Pipeline for Referring Image Segmentation Ya Jing Tao Kong Wei Wang Liang Wang Lei Li Tieniu Tan 18 132 0 30 Mar 2021
Linguistic Structure Guided Context Modeling for Referring Image Segmentation Tianrui Hui Si Liu Shaofei Huang Guanbin Li Sansi Yu Faxi Zhang Jizhong Han 21 148 0 01 Oct 2020
Referring Image Segmentation via Cross-Modal Progressive Comprehension Shaofei Huang Tianrui Hui Si Liu Guanbin Li Yunchao Wei Jizhong Han Luoqi Liu Yue Liu EgoV 29 176 0 01 Oct 2020