X-DETR: A Versatile Architecture for Instance-wise Vision-Language Tasks

X-DETR: A Versatile Architecture for Instance-wise Vision-Language Tasks

12 April 2022

Avinash Ravichandran

Papers citing "X-DETR: A Versatile Architecture for Instance-wise Vision-Language Tasks"

9 / 9 papers shown

Title
Unifying Global and Local Scene Entities Modelling for Precise Action Spotting Kim Hoang Tran Phuc Vuong Do Ngoc Quoc Ly Ngan Le 38 4 0 15 Apr 2024
Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features Hila Levi Guy Heller Dan Levi Ethan Fetaya OCL VLM 32 3 0 26 Sep 2023
DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment Lewei Yao Jianhua Han Xiaodan Liang Danqian Xu Wei Zhang Zhenguo Li Hang Xu VLM ObjD CLIP 56 74 0 10 Apr 2023
Learning to Name Classes for Vision and Language Models Sarah Parisot Yongxin Yang Jingyu Sun VLM 17 10 0 04 Apr 2023
Learning Object-Language Alignments for Open-Vocabulary Object Detection Chuang Lin Pei Sun Yi-Xin Jiang Ping Luo Lizhen Qu Gholamreza Haffari Zehuan Yuan Jianfei Cai VLM ObjD 29 95 0 27 Nov 2022
Masked Vision and Language Modeling for Multi-modal Representation Learning Gukyeong Kwon Zhaowei Cai Avinash Ravichandran Erhan Bas Rahul Bhotika Stefano Soatto 36 67 0 03 Aug 2022
EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual Question Answering Violetta Shevchenko Ehsan Abbasnejad A. Dick Anton Van Den Hengel Damien Teney 49 0 0 29 Jun 2022
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 899 0 28 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 340 3,726 0 11 Feb 2021