Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual Mask Annotations

29 March 2023

Ran Xu

Papers citing "Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual Mask Annotations"

29 / 29 papers shown

Title
MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation R. Yasarla H. Cai Jisoo Jeong Y. Shi Risheek Garrepalli Fatih Porikli MDE 192 17 0 17 Jan 2025
Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation Mohamed El Amine Boudjoghra Angela Dai Jean Lahoud Hisham Cholakkal Rao Muhammad Anwer Salman Khan Fahad Shahbaz Khan VLM ISeg 120 6 0 04 Jun 2024
Exploiting Unlabeled Data with Vision and Language Models for Object Detection Shiyu Zhao Zhixing Zhang S. Schulter Long Zhao Vijay Kumar B.G Anastasis Stathopoulos Manmohan Chandraker Dimitris N. Metaxas VLM ObjD 80 101 0 18 Jul 2022
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection H. Rasheed Muhammad Maaz Muhammad Uzair Khattak Salman Khan Fahad Shahbaz Khan ObjD VLM 93 154 0 07 Jul 2022
Localized Vision-Language Matching for Open-vocabulary Object Detection M. A. Bravo Sudhanshu Mittal Thomas Brox VLM ObjD 38 25 0 12 May 2022
Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model Yu Du Fangyun Wei Zihe Zhang Miaojing Shi Yue Gao Guoqi Li VPVLM VLM 66 331 0 28 Mar 2022
Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation Zongyang Ma Guan Luo Jin Gao Liang Li Yuxin Chen Shaoru Wang Congxuan Zhang Weiming Hu VLM ObjD 108 83 0 20 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 490 4,324 0 28 Jan 2022
Detecting Twenty-thousand Classes using Image-level Supervision Xingyi Zhou Rohit Girdhar Armand Joulin Phillip Krahenbuhl Ishan Misra CLIP VLM 95 612 0 07 Jan 2022
RegionCLIP: Region-based Language-Image Pretraining Yiwu Zhong Jianwei Yang Pengchuan Zhang Chunyuan Li Noel Codella ... Luowei Zhou Xiyang Dai Lu Yuan Yin Li Jianfeng Gao VLM CLIP 126 575 0 16 Dec 2021
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Lei Li Kai-Wei Chang Jianfeng Gao ObjD VLM 105 1,058 0 07 Dec 2021
Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling Dat T. Huynh Jason Kuen Zhe Lin Jiuxiang Gu Ehsan Elhamifar ISeg VLM 44 85 0 24 Nov 2021
Open Vocabulary Object Detection with Pseudo Bounding-Box Labels M. Gao Chen Xing Juan Carlos Niebles Junnan Li Ran Xu Wenhao Liu Caiming Xiong VLM ObjD 73 86 0 18 Nov 2021
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Junnan Li Ramprasaath R. Selvaraju Akhilesh Deepak Gotmare Shafiq Joty Caiming Xiong Guosheng Lin FaML 167 1,943 0 16 Jul 2021
End-to-End Semi-Supervised Object Detection with Soft Teacher Mengde Xu Zheng Zhang Han Hu Jianfeng Wang Lijuan Wang Fangyun Wei X. Bai Zicheng Liu 63 494 0 16 Jun 2021
Weakly Supervised Object Localization and Detection: A Survey Dingwen Zhang Junwei Han Gong Cheng Ming-Hsuan Yang WSOD 64 274 0 16 Apr 2021
Zero-Shot Instance Segmentation Ye Zheng Jiahong Wu Yongqiang Qin Faen Zhang Li Cui ISeg VLM 56 54 0 14 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 419 3,826 0 11 Feb 2021
BoxInst: High-Performance Instance Segmentation with Box Annotations Zhi Tian Chunhua Shen Xinlong Wang Hao Chen ISeg 70 237 0 03 Dec 2020
Open-Vocabulary Object Detection Using Captions Alireza Zareian Kevin Dela Rosa Derek Hao Hu Shih-Fu Chang VLM ObjD 120 429 0 20 Nov 2020
Unsupervised Learning of Image Segmentation Based on Differentiable Feature Clustering Wonjik Kim Asako Kanezaki Masayuki Tanaka 48 212 0 20 Jul 2020
Deep Learning vs. Traditional Computer Vision Niall O' Mahony S. Campbell A. Carvalho S. Harapanahalli G. Velasco-Hernández L. Krpalkova Daniel Riordan Joseph Walsh VLM 48 904 0 30 Oct 2019
VisualBERT: A Simple and Performant Baseline for Vision and Language Liunian Harold Li Mark Yatskar Da Yin Cho-Jui Hsieh Kai-Wei Chang VLM 130 1,948 0 09 Aug 2019
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks Jiasen Lu Dhruv Batra Devi Parikh Stefan Lee SSL VLM 217 3,667 0 06 Aug 2019
Dissimilarity Coefficient based Weakly Supervised Object Detection Aditya Arun C. V. Jawahar M. P. Kumar WSOD 43 88 0 25 Nov 2018
Tell Me Where to Look: Guided Attention Inference Network Kunpeng Li Ziyan Wu Kuan-Chuan Peng Jan Ernst Y. Fu 106 531 0 27 Feb 2018
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization Ramprasaath R. Selvaraju Michael Cogswell Abhishek Das Ramakrishna Vedantam Devi Parikh Dhruv Batra FAtt 256 19,929 0 07 Oct 2016
Learning Deep Features for Discriminative Localization Bolei Zhou A. Khosla Àgata Lapedriza A. Oliva Antonio Torralba SSL SSeg FAtt 229 9,298 0 14 Dec 2015
What's the Point: Semantic Segmentation with Point Supervision Amy Bearman Olga Russakovsky V. Ferrari Li Fei-Fei 3DPC 93 986 0 06 Jun 2015