v1v2 (latest)

Scaling Open-Vocabulary Image Segmentation with Image-Level Labels

22 December 2021

Papers citing "Scaling Open-Vocabulary Image Segmentation with Image-Level Labels"

50 / 298 papers shown

Title
PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models Qingdong He Jinlong Peng Zhengkai Jiang Xiaobin Hu Jiangning Zhang Qiang Nie Yabiao Wang Chengjie Wang 3DPC VLM 95 5 0 11 Mar 2024
Reframe Anything: LLM Agent for Open World Video Reframing Jiawang Cao Yongliang Wu Weiheng Chi Wenbo Zhu Ziyue Su Jay Wu 73 4 0 10 Mar 2024
Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities Kaiwen Cai Zhekai Duan Gaowen Liu Charles Fleming Chris Xiaoxuan Lu VLM 84 4 0 07 Mar 2024
Generalizable Semantic Vision Query Generation for Zero-shot Panoptic and Semantic Segmentation Jialei Chen Daisuke Deguchi Chenkai Zhang Hiroshi Murase VLM 129 1 0 21 Feb 2024
Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with Queryable Objects and Open-Set Relationships Sebastian Koch Narunas Vaskevicius Mirco Colosi Pedro Hermosilla Timo Ropinski 3DPC 86 31 0 19 Feb 2024
HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections Chen Dudai Morris Alper Hana Bezalel Rana Hanocka Itai Lang Hadar Averbuch-Elor 60 2 0 14 Feb 2024
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision Zhaoqing Wang Xiaobo Xia Ziye Chen Xiao He Yandong Guo Biwei Huang Tongliang Liu VLM 98 13 0 14 Feb 2024
V-IRL: Grounding Virtual Intelligence in Real Life Jihan Yang Runyu Ding Ellis L Brown Xiaojuan Qi Saining Xie LM&Ro 117 22 0 05 Feb 2024
CLIP Can Understand Depth Dunam Kim Seokju Lee VLM MDE 121 2 0 05 Feb 2024
Exploring Simple Open-Vocabulary Semantic Segmentation Zihang Lai VLM 71 0 0 22 Jan 2024
Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation Ci-Siang Lin Chien-Yi Wang Yu-Chiang Frank Wang Min-Hung Chen VLM 250 0 0 22 Jan 2024
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models Koichi Namekata Amirmojtaba Sabour Sanja Fidler Seung Wook Kim 126 22 0 22 Jan 2024
OMG-Seg: Is One Model Good Enough For All Segmentation? Xiangtai Li Haobo Yuan Wei Li Henghui Ding Size Wu Wenwei Zhang Yining Li Kai Chen Chen Change Loy VLM MLLM ViT 150 64 0 18 Jan 2024
Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation Ze-Long Cheng Kehan Li Hao Li Peng Jin Chang Liu Xiawu Zheng Rongrong Ji Jie Chen VOS 87 2 0 18 Jan 2024
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images Antonín Vobecký Oriane Siméoni David Hurych Spyros Gidaris Andrei Bursuc Patrick Pérez Josef Sivic 111 35 0 17 Jan 2024
MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation Mi Yan JIazhao Zhang Yan Zhu Hongan Wang 3DV ISeg 97 29 0 15 Jan 2024
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding Bowen Shi Peisen Zhao Zichen Wang Yuhang Zhang Yaoming Wang ... Wenrui Dai Junni Zou Hongkai Xiong Qi Tian Xiaopeng Zhang VLM 60 8 0 12 Jan 2024
Learning to Prompt with Text Only Supervision for Vision-Language Models Muhammad Uzair Khattak Muhammad Ferjad Naeem Muzammal Naseer Luc Van Gool F. Tombari VLM VPVLM 94 22 0 04 Jan 2024
3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation Zihao Xiao Longlong Jing Shangxuan Wu Alex Zihao Zhu Jingwei Ji ... Thomas Funkhouser Weicheng Kuo A. Angelova Yin Zhou Shiwei Sheng VLM 122 6 0 04 Jan 2024
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation Tuan-Anh Vu Duc Thanh Nguyen Qing Guo Binh-Son Hua N. Chung Ivor W. Tsang Sai-Kit Yeung DiffM 78 3 0 29 Dec 2023
A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties Junfei Xiao Ziqi Zhou Wenxuan Li Shiyi Lan Jieru Mei Zhiding Yu Alan Yuille Yuyin Zhou Cihang Xie VLM 58 1 0 21 Dec 2023
CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation Monika Wysoczañska Oriane Siméoni Michael Ramamonjisoa Andrei Bursuc Tomasz Trzciñski Patrick Pérez VLM CLIP 121 33 0 19 Dec 2023
SAI3D: Segment Any Instance in 3D Scenes Yingda Yin Yuzheng Liu Yang Xiao Daniel Cohen-Or Jingwei Huang Baoquan Chen 95 41 0 17 Dec 2023
WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary Knowledge Huy Le Tung Kieu Anh Nguyen Ngan Le VGen 66 2 0 15 Dec 2023
Tokenize Anything via Prompting Ting Pan Lulu Tang Xinlong Wang Shiguang Shan VLM 68 23 0 14 Dec 2023
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor Shuyang Sun Runjia Li Philip Torr Xiuye Gu Siyang Li VLM CLIP 140 34 0 12 Dec 2023
Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic Segmentation Yuanbin Wang Shaofei Huang Yulu Gao Zhen Wang Rui Wang Kehua Sheng Bo Zhang Si Liu VLM 80 14 0 12 Dec 2023
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment Utkarsh Mall Cheng Perng Phoo Meilin Kelsey Liu Carl Vondrick B. Hariharan Kavita Bala VLM 72 42 0 12 Dec 2023
OpenSD: Unified Open-Vocabulary Segmentation and Detection Shuai Li Ming-hui Li Pengfei Wang Lei Zhang ObjD VLM 70 6 0 10 Dec 2023
Improved Visual Grounding through Self-Consistent Explanations Ruozhen He Paola Cascante-Bonilla Ziyan Yang Alexander C. Berg Vicente Ordonez ReLM ObjD LRM FAtt 93 12 0 07 Dec 2023
ZePT: Zero-Shot Pan-Tumor Segmentation via Query-Disentangling and Self-Prompting Yankai Jiang Zhongzhen Huang Rongzhao Zhang Xiaofan Zhang Shaoting Zhang VLM 97 13 0 07 Dec 2023
Auto-Vocabulary Semantic Segmentation Osman Ülger Maksymilian Kulicki Yuki M. Asano Martin R. Oswald VLM 146 2 0 07 Dec 2023
Aligning and Prompting Everything All at Once for Universal Visual Perception Yunhang Shen Chaoyou Fu Peixian Chen Mengdan Zhang Ke Li Xing Sun Yunsheng Wu Shaohui Lin Rongrong Ji VLM ObjD 116 39 0 04 Dec 2023
Object Recognition as Next Token Prediction Kaiyu Yue Borchun Chen Jonas Geiping Hengduo Li Tom Goldstein Ser-Nam Lim 93 9 0 04 Dec 2023
Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding Guofeng Mei Luigi Riz Yiming Wang Fabio Poiesi 3DPC 88 7 0 04 Dec 2023
SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference Feng Wang Jieru Mei Alan Yuille VLM 143 66 0 04 Dec 2023
Grounding Everything: Emerging Localization Properties in Vision-Language Transformers Walid Bousselham Felix Petersen Vittorio Ferrari Hilde Kuehne ObjD VLM 123 49 0 01 Dec 2023
Segment and Caption Anything Xiaoke Huang Jianfeng Wang Yansong Tang Zheng Zhang Han Hu Jiwen Lu Lijuan Wang Zicheng Liu MLLM VLM 92 21 0 01 Dec 2023
DiffCAD: Weakly-Supervised Probabilistic CAD Model Retrieval and Alignment from an RGB Image Daoyi Gao Dávid Rozenberszki Stefan Leutenegger Angela Dai DiffM 77 14 0 30 Nov 2023
Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models Jiayun Luo Siddhesh Khandelwal Leonid Sigal Boyang Albert Li MLLM VLM 136 8 0 28 Nov 2023
SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance Lukas Hoyer D. Tan Muhammad Ferjad Naeem Luc Van Gool F. Tombari VLM MLLM 104 20 0 27 Nov 2023
Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition Yifei Chen Dapeng Chen Ruijin Liu Sai Zhou Wenyuan Xue Wei Peng 59 6 0 27 Nov 2023
SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation Bin Xie Jiale Cao Jin Xie Fahad Shahbaz Khan Yanwei Pang VLM 125 48 0 27 Nov 2023
Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding Zhihao Yuan Jinke Ren Chun-Mei Feng Hengshuang Zhao Shuguang Cui Zhen Li 125 30 0 26 Nov 2023
Visual In-Context Prompting Feng Li Qing Jiang Hao Zhang Tianhe Ren Shilong Liu ... Hongyang Li Chun-yue Li Jianwei Yang Lei Zhang Jianfeng Gao VLM LRM MLLM 89 36 0 22 Nov 2023
Generalized Category Discovery in Semantic Segmentation Zhengyuan Peng Qijian Tian Jianqing Xu Yizhang Jin Xuequan Lu Xin Tan Yuan Xie Lizhuang Ma ISeg 102 2 0 20 Nov 2023
Open-Vocabulary Camouflaged Object Segmentation Youwei Pang Xiaoqi Zhao Jiaming Zuo Lihe Zhang Huchuan Lu VLM ObjD 100 7 0 19 Nov 2023
Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention Zuyao Chen Jinlin Wu Zhen Lei Zhaoxiang Zhang Changwen Chen 116 18 0 18 Nov 2023
Towards Open-Ended Visual Recognition with Large Language Model Qihang Yu Xiaohui Shen Liang-Chieh Chen VLM 74 8 0 14 Nov 2023
TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity Recognition Yunjiao Zhou Jianfei Yang Han Zou Lihua Xie VLM 86 22 0 14 Nov 2023