v1v2v3 (latest)

A Simple Framework for Open-Vocabulary Segmentation and Detection

14 March 2023

Jianwei Yang

Lei Zhang

ObjD

VLM

ArXiv (abs)PDF HTML

Papers citing "A Simple Framework for Open-Vocabulary Segmentation and Detection"

42 / 42 papers shown

Title
Coca-Splat: Collaborative Optimization for Camera Parameters and 3D Gaussians Jiamin Wu Hongyang Li Xiaoke Jiang Yuan Yao Lei Zhang 3DGS 137 0 0 01 Apr 2025
OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask Merging Yijie Tang JIazhao Zhang Yuqing Lan Yulan Guo Dezun Dong Chenyang Zhu K. Xu 406 1 0 03 Mar 2025
Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance Duc-Hai Pham Duc Dung Nguyen Anh Pham Ho Lai Tuan P. Nguyen Khoi Duc Minh Nguyen Rang Nguyen 3DPC 138 1 0 10 Jan 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 301 59 0 03 Jan 2025
OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection Zhongyu Xia Jishuo Li Zhiwei Lin Xinhao Wang Yansen Wang Ming-Hsuan Yang VLM 122 3 0 26 Nov 2024
PooDLe: Pooled and dense self-supervised learning from naturalistic videos Alex N. Wang Christopher Hoang Yuwen Xiong Yann LeCun Mengye Ren 191 0 0 20 Aug 2024
O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation Muer Tie Julong Wei Zhengjun Wang Ke Wu Shansuai Yuan Kaizhao Zhang Jie Jia Jieru Zhao Zhongxue Gan Wenchao Ding 100 6 0 10 Apr 2024
Vision Transformers Are Good Mask Auto-Labelers Shiyi Lan Xitong Yang Zhiding Yu Zuxuan Wu J. Álvarez Anima Anandkumar ISeg ViT MedIm 58 19 0 10 Jan 2023
Generalized Decoding for Pixel, Image, and Language Xueyan Zou Zi-Yi Dou Jianwei Yang Zhe Gan Linjie Li ... Lu Yuan Nanyun Peng Lijuan Wang Yong Jae Lee Jianfeng Gao VLM MLLM ObjD 101 259 0 21 Dec 2022
F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models Weicheng Kuo Huayu Chen Xiuye Gu A. Piergiovanni A. Angelova MLLM VLM ObjD 134 137 0 30 Sep 2022
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection Lewei Yao Jianhua Han Youpeng Wen Xiaodan Liang Dan Xu Wei Zhang Zhenguo Li Chunjing Xu Hang Xu CLIP VLM 173 160 0 20 Sep 2022
Box-supervised Instance Segmentation with Level Set Evolution Wentong Li Wenyu Liu Jianke Zhu Miaomiao Cui Xia Hua Lei Zhang ISeg 58 61 0 19 Jul 2022
GLIPv2: Unifying Localization and Vision-Language Understanding Haotian Zhang Pengchuan Zhang Xiaowei Hu Yen-Chun Chen Liunian Harold Li Xiyang Dai Lijuan Wang Lu Yuan Lei Li Jianfeng Gao ObjD VLM 90 300 0 12 Jun 2022
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation Feng Li Hao Zhang Hu-Sheng Xu Siyi Liu Lei Zhang L. Ni H. Shum ISeg 126 390 0 06 Jun 2022
Unified Contrastive Learning in Image-Text-Label Space Jianwei Yang Chunyuan Li Pengchuan Zhang Bin Xiao Ce Liu Lu Yuan Jianfeng Gao VLM SSL 132 226 0 07 Apr 2022
Focal Modulation Networks Jianwei Yang Chunyuan Li Xiyang Dai Lu Yuan Jianfeng Gao 3DPC 86 275 0 22 Mar 2022
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection Hao Zhang Feng Li Shilong Liu Lei Zhang Hang Su Jun Zhu L. Ni H. Shum ViT 173 1,451 0 07 Mar 2022
DN-DETR: Accelerate DETR Training by Introducing Query DeNoising Feng Li Hao Zhang Shi-guang Liu Jian Guo L. Ni Lei Zhang ViT 130 680 0 02 Mar 2022
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR Shilong Liu Feng Li Hao Zhang Xiaohu Yang Xianbiao Qi Hang Su Jun Zhu Lei Zhang ViT 294 761 0 28 Jan 2022
MSeg: A Composite Dataset for Multi-domain Semantic Segmentation John Lambert Zhuang Liu Ozan Sener James Hays V. Koltun VLM 81 202 0 27 Dec 2021
RegionCLIP: Region-based Language-Image Pretraining Yiwu Zhong Jianwei Yang Pengchuan Zhang Chunyuan Li Noel Codella ... Luowei Zhou Xiyang Dai Lu Yuan Yin Li Jianfeng Gao VLM CLIP 148 580 0 16 Dec 2021
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Lei Li Kai-Wei Chang Jianfeng Gao ObjD VLM 129 1,066 0 07 Dec 2021
Masked-attention Mask Transformer for Universal Image Segmentation Bowen Cheng Ishan Misra Alex Schwing Alexander Kirillov Rohit Girdhar ISeg 253 2,379 0 02 Dec 2021
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting Yongming Rao Wenliang Zhao Guangyi Chen Yansong Tang Zheng Zhu Guan Huang Jie Zhou Jiwen Lu VLM CLIP 208 578 0 02 Dec 2021
Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling Dat T. Huynh Jason Kuen Zhe Lin Jiuxiang Gu Ehsan Elhamifar ISeg VLM 56 86 0 24 Nov 2021
Open Vocabulary Object Detection with Pseudo Bounding-Box Labels M. Gao Chen Xing Juan Carlos Niebles Junnan Li Ran Xu Wenhao Liu Caiming Xiong VLM ObjD 88 86 0 18 Nov 2021
Conditional DETR for Fast Training Convergence Depu Meng Xiaokang Chen Zejia Fan Gang Zeng Houqiang Li Yuhui Yuan Lei-huan Sun Jingdong Wang ViT 88 619 0 13 Aug 2021
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers Enze Xie Wenhai Wang Zhiding Yu Anima Anandkumar J. Álvarez Ping Luo ViT 312 5,051 0 31 May 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 283 920 0 28 Apr 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 182 889 0 26 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 450 3,887 0 11 Feb 2021
Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers Lisa Anne Hendricks John F. J. Mellor R. Schneider Jean-Baptiste Alayrac Aida Nematzadeh 125 116 0 31 Jan 2021
BoxInst: High-Performance Instance Segmentation with Box Annotations Zhi Tian Chunhua Shen Xinlong Wang Hao Chen ISeg 88 239 0 03 Dec 2020
Open-Vocabulary Object Detection Using Captions Alireza Zareian Kevin Dela Rosa Derek Hao Hu Shih-Fu Chang VLM ObjD 130 433 0 20 Nov 2020
Deformable DETR: Deformable Transformers for End-to-End Object Detection Xizhou Zhu Weijie Su Lewei Lu Bin Li Xiaogang Wang Jifeng Dai ViT 234 5,091 0 08 Oct 2020
End-to-End Object Detection with Transformers Nicolas Carion Francisco Massa Gabriel Synnaeve Nicolas Usunier Alexander Kirillov Sergey Zagoruyko ViT 3DV PINN 430 13,094 0 26 May 2020
LVIS: A Dataset for Large Vocabulary Instance Segmentation Agrim Gupta Piotr Dollár Ross B. Girshick ISeg VLM 105 1,376 0 08 Aug 2019
Object Detection in 20 Years: A Survey Zhengxia Zou Keyan Chen Zhenwei Shi Yuhong Guo Jieping Ye VLM ObjD AI4TS 117 2,374 0 13 May 2019
Hybrid Task Cascade for Instance Segmentation Kai-xiang Chen Jiangmiao Pang Jiaqi Wang Yu Xiong Xiaoxiao Li ... Ziwei Liu Jianping Shi Wanli Ouyang Chen Change Loy Dahua Lin ISeg 140 1,305 0 22 Jan 2019
Mask R-CNN Kaiming He Georgia Gkioxari Piotr Dollár Ross B. Girshick ObjD 353 27,230 0 20 Mar 2017
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs Liang-Chieh Chen George Papandreou Iasonas Kokkinos Kevin Patrick Murphy Alan Yuille SSeg 265 18,259 0 02 Jun 2016
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 218 2,489 0 01 Apr 2015