CapDet: Unifying Dense Captioning and Open-World Detection Pretraining

4 March 2023

Yanxin Long

Youpeng Wen

Jianhua Han

Hang Xu

Wei Zhang

Xiaodan Liang

Papers citing "CapDet: Unifying Dense Captioning and Open-World Detection Pretraining"

21 / 21 papers shown

Title
Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation Yongchao Feng Yajie Liu Shuai Yang Wenrui Cai Jingyang Zhang ... Jiahui Lv Ziqiang Liu Tengyuan Shi Qingjie Liu Yixuan Wang MLLM VLM 63 1 0 13 Apr 2025
Dynamic Relation Inference via Verb Embeddings Omri Suissa Muhiim Ali Ariana Azarbal Hui Shen Shekhar Pradhan 46 0 0 17 Mar 2025
YOLOE: Real-Time Seeing Anything Ao Wang Lihao Liu Hui Chen Zijia Lin J. Han Guiguang Ding VLM ObjD 77 1 0 10 Mar 2025
RTGen: Real-Time Generative Detection Transformer Chi Ruan ObjD VLM 52 0 0 28 Feb 2025
PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension Kun Ouyang Yuanxin Liu Shicheng Li Yi Liu Hao Zhou Fandong Meng Jie Zhou Xu Sun 110 1 0 16 Dec 2024
Sustainable Self-evolution Adversarial Training Wenxuan Wang Chenglei Wang Huihui Qi Menghao Ye Xuelin Qian Peng Wang Yanning Zhang AAML 71 0 0 03 Dec 2024
It's Just Another Day: Unique Video Captioning by Discriminative Prompting Toby Perrett Tengda Han Dima Damen Andrew Zisserman 19 3 0 15 Oct 2024
From a Social Cognitive Perspective: Context-aware Visual Social Relationship Recognition Shiwei Wu Chao Zhang Joya Chen Tong Xu Likang Wu Yao Hu Enhong Chen 27 0 0 12 Jun 2024
Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions Renjie Pi Jianshu Zhang Jipeng Zhang Rui Pan Zhekai Chen Tong Zhang 3DV 47 19 0 11 Jun 2024
RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection Fangyi Chen Han Zhang Zhantao Yang Hao Chen Kai Hu Marios Savvides ObjD VLM 41 5 0 30 May 2024
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu VLM ObjD 53 20 0 14 Apr 2024
Generative Region-Language Pretraining for Open-Ended Object Detection Chuang Lin Yi-Xin Jiang Lizhen Qu Zehuan Yuan Jianfei Cai ObjD VLM 53 13 0 15 Mar 2024
A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes Ting Yu Xiaojun Lin Shuhui Wang Weiguo Sheng Qingming Huang Jun-chen Yu 3DV 54 10 0 12 Mar 2024
ControlCap: Controllable Region-level Captioning Yuzhong Zhao Yue Liu Zonghao Guo Weijia Wu Chen Gong Fang Wan QiXiang Ye 26 5 0 31 Jan 2024
Segment and Caption Anything Xiaoke Huang Jianfeng Wang Yansong Tang Zheng Zhang Han Hu Jiwen Lu Lijuan Wang Zicheng Liu MLLM VLM 28 18 0 01 Dec 2023
Dense Video Object Captioning from Disjoint Supervision Xingyi Zhou Anurag Arnab Chen Sun Cordelia Schmid 31 3 0 20 Jun 2023
Multi-modal Queried Object Detection in the Wild Yifan Xu Mengdan Zhang Chaoyou Fu Peixian Chen Xiaoshan Yang Ke Li Changsheng Xu ObjD VLM 30 30 0 30 May 2023
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection Lewei Yao Jianhua Han Youpeng Wen Xiaodan Liang Dan Xu Wei Zhang Zhenguo Li Chunjing Xu Hang Xu CLIP VLM 115 153 0 20 Sep 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 392 4,137 0 28 Jan 2022
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 899 0 28 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 310 3,708 0 11 Feb 2021