Multi-modal Queried Object Detection in the Wild

30 May 2023

Papers citing "Multi-modal Queried Object Detection in the Wild"

28 / 28 papers shown

Title
Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation Yongchao Feng Yajie Liu Shuai Yang Wenrui Cai Jingyang Zhang ... Jiahui Lv Ziqiang Liu Tengyuan Shi Qingjie Liu Yansen Wang MLLM VLM 63 1 0 13 Apr 2025
Enhance Then Search: An Augmentation-Search Strategy with Foundation Models for Cross-Domain Few-Shot Object Detection Jiancheng Pan Yanxing Liu Xiao He Long Peng Jiahao Li Yuze Sun Xiaomeng Huang 40 0 0 06 Apr 2025
YOLOE: Real-Time Seeing Anything Ao Wang Lihao Liu Hui Chen Zijia Lin J. Han Guiguang Ding VLM ObjD 80 1 0 10 Mar 2025
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 58 4 0 31 Dec 2024
Just a Few Glances: Open-Set Visual Perception with Image Prompt Paradigm Jinrong Zhang Penghui Wang Chunxiao Liu Wei Liu D. Jin Qiong Zhang Erli Meng Zhengnan Hu VLM 77 0 0 14 Dec 2024
OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection Zhongyu Xia Jishuo Li Zhiwei Lin Xinhao Wang Yansen Wang Ming-Hsuan Yang VLM 77 2 0 26 Nov 2024
An End-to-End Real-World Camera Imaging Pipeline Kepeng Xu Zijia Ma Li Xu Gang He Yunsong Li Wenxin Yu Taichu Han Cheng Yang 74 6 0 16 Nov 2024
Open-vocabulary vs. Closed-set: Best Practice for Few-shot Object Detection Considering Text Describability Yusuke Hosoya Masanori Suganuma Takayuki Okatani ObjD 21 0 0 20 Oct 2024
MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding Qinzhuo Wu Weikai Xu Wei Liu Tao Tan Jianfeng Liu Ang Li Jian Luan Bin Wang Shuo Shang VLM 40 11 0 23 Sep 2024
More Pictures Say More: Visual Intersection Network for Open Set Object Detection Bingcheng Dong Yuning Ding Jinrong Zhang Sifan Zhang Shenglan Liu ObjD 46 0 0 26 Aug 2024
Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community Jiancheng Pan Yanxing Liu Yuqian Fu Muyuan Ma Jiaohao Li D. Paudel Luc Van Gool Xiaomeng Huang ObjD 69 7 0 17 Aug 2024
OVMR: Open-Vocabulary Recognition with Multi-Modal References Zehong Ma Shiliang Zhang Longhui Wei Qi Tian VLM 44 0 0 07 Jun 2024
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection Tianhe Ren Qing Jiang Shilong Liu Zhaoyang Zeng Wenlong Liu ... Hao Zhang Feng Li Peijun Tang Kent Yu Lei Zhang ObjD VLM 42 34 0 16 May 2024
Libra: Building Decoupled Vision System on Large Language Models Yifan Xu Xiaoshan Yang Y. Song Changsheng Xu MLLM VLM 43 6 0 16 May 2024
T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy Qing Jiang Feng Li Zhaoyang Zeng Tianhe Ren Shilong Liu Lei Zhang VLM 32 37 0 21 Mar 2024
Revisiting Few-Shot Object Detection with Vision-Language Models Anish Madan Neehar Peri Shu Kong Deva Ramanan VLM 34 6 0 22 Dec 2023
Language-conditioned Detection Transformer Jang Hyun Cho Philipp Krahenbuhl VLM ObjD 47 1 0 29 Nov 2023
Visual In-Context Prompting Feng Li Qing Jiang Hao Zhang Tianhe Ren Shilong Liu ... Hongyang Li Chun-yue Li Jianwei Yang Lei Zhang Jianfeng Gao VLM LRM MLLM 29 31 0 22 Nov 2023
T-Rex: Counting by Visual Prompting Qing Jiang Feng Li Tianhe Ren Shilong Liu Zhaoyang Zeng Kent Yu Lei Zhang 24 11 0 22 Nov 2023
MoCaE: Mixture of Calibrated Experts Significantly Improves Object Detection Kemal Oksuz Selim Kuzucu Tom Joy P. Dokania MoE 24 5 0 26 Sep 2023
Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection Yifan Xu Mengdan Zhang Xiaoshan Yang Changsheng Xu ObjD 32 5 0 30 Aug 2023
A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future Chaoyang Zhu Long Chen ObjD VLM 31 32 0 18 Jul 2023
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 194 387 0 06 Nov 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 348 2,279 0 02 Sep 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 899 0 28 Apr 2021
Universal-Prototype Enhancing for Few-Shot Object Detection Aming Wu Yahong Han Linchao Zhu Yi Yang ObjD 41 84 0 01 Mar 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 337 3,720 0 11 Feb 2021
Frustratingly Simple Few-Shot Object Detection Xin Wang Thomas E. Huang Trevor Darrell Joseph E. Gonzalez Feng Yu ObjD 95 544 0 16 Mar 2020