Scaling Open-Vocabulary Object Detection

16 June 2023

Papers citing "Scaling Open-Vocabulary Object Detection"

45 / 45 papers shown

Title
Real-Time Out-of-Distribution Failure Prevention via Multi-Modal Reasoning Milan Ganai Rohan Sinha Christopher Agia Daniel Morton Marco Pavone OffRL LRM AI4CE 35 0 0 15 May 2025
Beyond General Prompts: Automated Prompt Refinement using Contrastive Class Alignment Scores for Disambiguating Objects in Vision-Language Models Lucas Choi Ross Greer VLM 33 0 0 14 May 2025
Vision Foundation Model Embedding-Based Semantic Anomaly Detection M. Ronecker Matthew Foutter Amine Elhafsi Daniele Gammelli Ihor Barakaiev Marco Pavone Daniel Watzenig 29 0 0 12 May 2025
CHD: Coupled Hierarchical Diffusion for Long-Horizon Tasks Ce Hao Anxing Xiao Zhiwei Xue Harold Soh 56 0 0 12 May 2025
FG-CLIP: Fine-Grained Visual and Textual Alignment Chunyu Xie Bin Wang Fanjing Kong Jincheng Li Dawei Liang Gengshen Zhang Dawei Leng Yuhui Yin CLIP VLM 56 0 0 08 May 2025
Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions Cunxin Fan Xiaosong Jia Yihang Sun Yixiao Wang Jianglan Wei ... Xiangyu Zhao Masayoshi Tomizuka Xue Yang Junchi Yan Mingyu Ding LM&Ro VLM 69 3 0 04 May 2025
Robotic Visual Instruction Y. Li Ziyang Gong Yiming Li Xiaoqi Huang Haolan Kang Guangping Bai Xianzheng Ma LM&Ro 76 0 0 01 May 2025
Perception Encoder: The best visual embeddings are not at the output of the network Daniel Bolya Po-Yao (Bernie) Huang Peize Sun Jang Hyun Cho Andrea Madotto ... Shiyu Dong Nikhila Ravi Daniel Li Piotr Dollár Christoph Feichtenhofer ObjD VOS 103 2 0 17 Apr 2025
Post-processing for Fair Regression via Explainable SVD Zhiqun Zuo Ding Zhu Mohammad Mahdi Khalili 217 0 0 04 Apr 2025
GOAL: Global-local Object Alignment Learning Hyungyu Choi Young Kyun Jang Chanho Eom VLM 189 0 0 22 Mar 2025
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots Nvidia Johan Bjorck Fernando Castañeda Nikita Cherniadev Xingye Da ... Ao Zhang Hao Zhang Yizhou Zhao Ruijie Zheng Yuke Zhu VLM 71 29 0 18 Mar 2025
Large-scale Pre-training for Grounded Video Caption Generation Evangelos Kazakos Cordelia Schmid Josef Sivic 59 0 0 13 Mar 2025
DIV-FF: Dynamic Image-Video Feature Fields For Environment Understanding in Egocentric Videos Lorenzo Mur-Labadia Josechu Guerrero Ruben Martinez-Cantin VGen 61 0 0 11 Mar 2025
OpenRSD: Towards Open-prompts for Object Detection in Remote Sensing Images Ziyue Huang Yongchao Feng Shuai Yang Ziqiang Liu Qingjie Liu Yansen Wang ObjD 217 0 0 08 Mar 2025
NeSyC: A Neuro-symbolic Continual Learner For Complex Embodied Tasks In Open Domains Wonje Choi Jinwoo Park Sanghyun Ahn Daehee Lee Honguk Woo 201 1 0 02 Mar 2025
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts Zhongyang Li Ziyue Li Dinesh Manocha MoE 53 0 0 27 Feb 2025
QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries N. H. Chapman Feras Dayoub Will N. Browne Christopher F. Lehnert VLM 82 0 0 26 Feb 2025
Contrastive Localized Language-Image Pre-Training Hong-You Chen Zhengfeng Lai Hao Zhang Xuben Wang Marcin Eichner Keen You Meng Cao Bowen Zhang Yuqing Yang Zhe Gan CLIP VLM 68 7 0 20 Feb 2025
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation Yi Li Yuquan Deng Jingyang Zhang Joel Jang Marius Memme ... Fabio Ramos Dieter Fox Anqi Li Abhishek Gupta Ankit Goyal LM&Ro 102 10 0 08 Feb 2025
LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps Andrey Palaev Adil Mehmood Khan S. M. Ahsan Kazmi DiffM 53 0 0 23 Jan 2025
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning Yuzhou Huang Ziyang Yuan Quande Liu Qiulin Wang Xintao Wang Ruimao Zhang Pengfei Wan Di Zhang Kun Gai VGen DiffM 47 10 0 08 Jan 2025
MLLM-as-a-Judge for Image Safety without Human Labeling Zhenting Wang Shuming Hu Shiyu Zhao Xiaowen Lin F. Xu ... Nan Jiang Lingjuan Lyu Shiqing Ma Dimitris N. Metaxas Ankit Jain 188 2 0 31 Dec 2024
Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models Salma Abdel Magid Weiwei Pan Simon Warchol Grace Guo Junsik Kim Mahia Rahman Hanspeter Pfister 95 0 0 06 Oct 2024
Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy Ricardo Garcia Shizhe Chen Cordelia Schmid LM&Ro 47 8 0 02 Oct 2024
Optimizing Resource Consumption in Diffusion Models through Hallucination Early Detection Federico Betti Lorenzo Baraldi Lorenzo Baraldi Rita Cucchiara N. Sebe DiffM 36 0 0 16 Sep 2024
NeIn: Telling What You Don't Want Nhat-Tan Bui Dinh-Hieu Hoang Quoc-Huy Trinh Minh-Triet Tran Truong Nguyen Susan Gauch 43 2 0 09 Sep 2024
General-purpose Clothes Manipulation with Semantic Keypoints Yuhong Deng David Hsu 62 2 0 15 Aug 2024
Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models Fushuo Huo Wenchao Xu Zhong Zhang Yining Qi Zhicheng Chen Peilin Zhao VLM MLLM 68 19 0 04 Aug 2024
Robotic Control via Embodied Chain-of-Thought Reasoning Michał Zawalski William Chen Karl Pertsch Oier Mees Chelsea Finn Sergey Levine LRM LM&Ro 39 58 0 11 Jul 2024
Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge Sriram Yenamandra Arun Ramachandran Mukul Khanna Karmesh Yadav Jay Vakil ... Z. Kira Dhruv Batra Roozbeh Mottaghi Yonatan Bisk Chris Paxton LM&Ro 62 6 0 09 Jul 2024
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy Xiang Li Cristina Mata J. Park Kumara Kahatapitiya Yoo Sung Jang ... Kanchana Ranasinghe R. Burgert Mu Cai Yong Jae Lee Michael S. Ryoo LM&Ro 72 26 0 28 Jun 2024
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning Xiangyu Zhao Xiangtai Li Haodong Duan Haian Huang Yining Li Kai Chen Hua Yang VLM MLLM 45 10 0 25 Jun 2024
MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning Shuo Xu Sai Wang Xinyue Hu Yutian Lin Bo Du Yu Wu CoGe 59 1 0 18 Jun 2024
ELSA: Evaluating Localization of Social Activities in Urban Streets Maryam Hosseini Marco Cipriano Sedigheh Eslami Daniel Hodczak Liu Liu Andres Sevtsuk Gerard de Melo 41 0 0 03 Jun 2024
Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds Oliver Lemke Z. Bauer René Zurbrugg Marc Pollefeys Francis Engelmann Hermann Blum 3DPC 29 11 0 18 Apr 2024
Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge H. R. Medeiros Masih Aminbeidokhti F. Guerrero-Peña David Latortue Eric Granger M. Pedersoli VLM 45 2 0 01 Apr 2024
Object Recognition as Next Token Prediction Kaiyu Yue Borchun Chen Jonas Geiping Hengduo Li Tom Goldstein Ser-Nam Lim 40 9 0 04 Dec 2023
SILC: Improving Vision Language Pretraining with Self-Distillation Muhammad Ferjad Naeem Yongqin Xian Xiaohua Zhai Lukas Hoyer Luc Van Gool F. Tombari VLM 30 33 0 20 Oct 2023
Three ways to improve feature alignment for open vocabulary detection Relja Arandjelović A. Andonian A. Mensch Olivier J. Hénaff Jean-Baptiste Alayrac Andrew Zisserman VLM ObjD 48 19 0 23 Mar 2023
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation Yue Han Jiangning Zhang Zhucun Xue Chao Xu Xintian Shen Yabiao Wang Chengjie Wang Yong Liu Xiangtai Li 47 17 0 03 Jan 2023
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection Lewei Yao Jianhua Han Youpeng Wen Xiaodan Liang Dan Xu Wei Zhang Zhenguo Li Chunjing Xu Hang Xu CLIP VLM 115 153 0 20 Sep 2022
SCENIC: A JAX Library for Computer Vision Research and Beyond Mostafa Dehghani A. Gritsenko Anurag Arnab Matthias Minderer Yi Tay 46 68 0 18 Oct 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 225 899 0 28 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 337 3,720 0 11 Feb 2021
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Huayu Chen A. Srinivas Rui Qian Nayeon Lee E. D. Cubuk Quoc V. Le Barret Zoph ISeg 252 969 0 13 Dec 2020