Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation

14 August 2024

Papers citing "Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation"

14 / 14 papers shown

Title
BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation Rafi Ibn Sultan Hui Zhu Chengyin Li Dongxiao Zhu 55 0 0 30 Mar 2025
RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models Keyan Chen Jiafan Zhang Chenyang Liu Zhengxia Zou Zhenwei Shi VLM 39 3 0 12 Jan 2025
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation Zhe Dong Yuzhe Sun Yanfeng Gu Tianzhu Liu 33 4 0 11 Oct 2024
Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation Sen Lei Xinyu Xiao Heng-Chao Li Z. Shi Qing Zhu 26 12 0 20 Sep 2024
Depth-Weighted Detection of Behaviours of Risk in People with Dementia using Cameras Pratik K. Mishra Irene Ballester Andrea Iaboni B. Ye Kristine Newman Alex Mihailidis Shehroz S. Khan 45 0 0 28 Aug 2024
MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation Beoungwoo Kang Seunghun Moon Yubin Cho Hyunwoo Yu Suk-Ju Kang ViT MedIm 32 8 0 14 Aug 2024
Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation Hyunwoo Yu Yubin Cho Beoungwoo Kang Seunghun Moon Kyeongbo Kong Suk-Ju Kang 30 3 0 24 Jul 2024
Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation Seonghoon Yu Paul Hongsuck Seo Jeany Son DiffM 57 4 0 10 Jul 2024
Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation Yichen Yan Xingjian He Sihan Chen Shichen Lu Jing Liu 31 0 0 18 May 2024
TT-BLIP: Enhancing Fake News Detection Using BLIP and Tri-Transformer Eunjee Choi Jong-Kook Kim 40 1 0 19 Mar 2024
EAVL: Explicitly Align Vision and Language for Referring Image Segmentation Yimin Yan Xingjian He Wenxuan Wang Sihan Chen Jiaheng Liu ObjD VLM 29 2 0 18 Aug 2023
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip Torr 148 307 0 04 Dec 2021
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng Rongrong Ji ObjD 176 286 0 19 Mar 2020
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 253 1,829 0 18 Aug 2016