Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance

4 March 2025

Papers citing "Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance"

28 / 28 papers shown

Title
EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation Zelin Zhang Tao Zhang KediLI Xu Zheng 67 0 0 20 May 2025
Robust Multimodal Segmentation with Representation Regularization and Hybrid Prototype Distillation Jiaqi Tan Xu Zheng Yuhang Liu 65 0 0 19 May 2025
Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization Xu Zheng Yuanhuiyi Lyu Lutao Jiang Danda Pani Paudel Luc Van Gool Xuming Hu 74 4 0 10 May 2025
Segment Any RGB-Thermal Model with Language-aided Distillation Dong Xing Xianxun Zhu Wei Zhou Qika Lin Hang Yang Yuqing Wang VLM 181 0 0 04 May 2025
MemorySAM: Memorize Modalities and Semantics with Segment Anything Model 2 for Multi-modal Semantic Segmentation Chenfei Liao Xu Zheng Yuanhuiyi Lyu Haiwei Xue Yihong Cao Jiawen Wang Kailun Yang Xuming Hu VLM 124 9 0 09 Mar 2025
HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion Jiahang Li Peng Yun Qijun Chen Rui Fan 75 9 0 04 Apr 2024
SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation Bin Xie Jiale Cao Jin Xie Fahad Shahbaz Khan Yanwei Pang VLM 102 48 0 27 Nov 2023
Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation Jinyuan Liu Zhu Liu Guanyao Wu Long Ma Risheng Liu Wei Zhong Zhongxuan Luo Xin-Yue Fan 91 135 0 04 Aug 2023
Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles Chaitanya K. Ryali Yuan-Ting Hu Daniel Bolya Chen Wei Haoqi Fan ... Omid Poursaeed Judy Hoffman Jitendra Malik Yanghao Li Christoph Feichtenhofer 3DH 116 186 0 01 Jun 2023
Complementary Random Masking for RGB-Thermal Semantic Segmentation Ukcheol Shin Kyunghyun Lee In So Kweon Jean Oh 71 23 0 30 Mar 2023
Delivering Arbitrary-Modal Semantic Segmentation Jiaming Zhang R. Liu Haowen Shi Kailun Yang Simon Reiß Kunyu Peng Haodong Fu Kaiwei Wang Rainer Stiefelhagen VLM 110 99 0 02 Mar 2023
RGB-T Semantic Segmentation with Location, Activation, and Sharpening Gongyang Li Yike Wang Zhi Liu Xinpeng Zhang Dan Zeng 49 104 0 26 Oct 2022
Multimodal Token Fusion for Vision Transformers Yikai Wang Xinghao Chen Lele Cao Wen-bing Huang Gang Hua Yunhe Wang ViT 87 182 0 19 Apr 2022
CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers Jiaming Zhang Huayao Liu Kailun Yang Xinxin Hu Ruiping Liu Rainer Stiefelhagen ViT 88 328 0 09 Mar 2022
Language-driven Semantic Segmentation Boyi Li Kilian Q. Weinberger Serge Belongie V. Koltun René Ranftl VLM 139 627 0 10 Jan 2022
A ConvNet for the 2020s Zhuang Liu Hanzi Mao Chaozheng Wu Christoph Feichtenhofer Trevor Darrell Saining Xie ViT 189 5,226 0 10 Jan 2022
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers Enze Xie Wenhai Wang Zhiding Yu Anima Anandkumar J. Álvarez Ping Luo ViT 323 5,072 0 31 May 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 999 29,871 0 26 Feb 2021
DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion Zixiang Zhao Shuang Xu Chunxia Zhang Junmin Liu Pengfei Li Jiangshe Zhang 104 225 0 20 Mar 2020
PST900: RGB-Thermal Calibration, Dataset and Segmentation Network Shreyas S. Shivakumar Neil Rodrigues Alex Zhou Ian D. Miller Vijay Kumar Camillo J Taylor 57 181 0 20 Sep 2019
LXMERT: Learning Cross-Modality Encoder Representations from Transformers Hao Hao Tan Joey Tianyi Zhou VLM MLLM 252 2,493 0 20 Aug 2019
Feature Pyramid Networks for Object Detection Nayeon Lee Piotr Dollár Ross B. Girshick Kaiming He Bharath Hariharan Serge J. Belongie ObjD 488 22,158 0 09 Dec 2016
Pyramid Scene Parsing Network Hengshuang Zhao Jianping Shi Xiaojuan Qi Xiaogang Wang Jiaya Jia VOS SSeg 665 12,035 0 04 Dec 2016
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs Liang-Chieh Chen George Papandreou Iasonas Kokkinos Kevin Patrick Murphy Alan Yuille SSeg 273 18,284 0 02 Jun 2016
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation Vijay Badrinarayanan Alex Kendall R. Cipolla SSeg 1.1K 15,821 0 02 Nov 2015
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 1.9K 77,441 0 18 May 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 233 5,509 0 03 May 2015
Show and Tell: A Neural Image Caption Generator Oriol Vinyals Alexander Toshev Samy Bengio D. Erhan 3DV 262 6,036 0 17 Nov 2014