Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship
Detection

Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection

21 March 2024

Alex Bewley

Matthias Minderer

Papers citing "Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection"

9 / 9 papers shown

Title
Domain-Conditioned Scene Graphs for State-Grounded Task Planning Jonas Herzog Jiangpin Liu Yue Wang LM&Ro 53 0 0 09 Apr 2025
REVEAL: Relation-based Video Representation Learning for Video-Question-Answering Sofian Chaybouti Walid Bousselham Moritz Wolter Hilde Kuehne 116 0 0 07 Apr 2025
Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models Jungseok Hong Ran Choi John Leonard VLM 39 0 0 11 Nov 2024
A Modern Take on Visual Relationship Reasoning for Grasp Planning Paolo Rabino Tatiana Tommasi 33 1 0 03 Sep 2024
Open-vocabulary Queryable Scene Representations for Real World Planning Boyuan Chen F. Xia Brian Ichter Kanishka Rao K. Gopalakrishnan Michael S. Ryoo Austin Stone Daniel Kappler LM&Ro 146 181 0 20 Sep 2022
Hydra: A Real-time Spatial Perception System for 3D Scene Graph Construction and Optimization Nathan Hughes Yun Chang Luca Carlone 3DPC 123 142 0 31 Jan 2022
RelTR: Relation Transformer for Scene Graph Generation Yuren Cong M. Yang Bodo Rosenhahn ViT 97 133 0 27 Jan 2022
ViDT: An Efficient and Effective Fully Transformer-based Object Detector Hwanjun Song Deqing Sun Sanghyuk Chun Varun Jampani Dongyoon Han Byeongho Heo Wonjae Kim Ming-Hsuan Yang 87 76 0 08 Oct 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 298 3,700 0 11 Feb 2021