v1v2 (latest)

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

26 April 2021

ArXiv (abs)PDF HTML Github (1008★)

Papers citing "MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding"

50 / 616 papers shown

Title
Cycle-Consistency Learning for Captioning and Grounding Ning Wang Jiajun Deng Mingbo Jia ObjD 93 8 0 23 Dec 2023
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training Xinyan Chen Jiaxin Ge Tianjun Zhang Jiaming Liu Shanghang Zhang VLM EGVM 196 0 0 23 Dec 2023
GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection Haozhan Shen Tiancheng Zhao Mingwei Zhu Yuxiang Cai VLM ObjD 180 11 0 22 Dec 2023
V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs Penghao Wu Saining Xie LRM 138 158 0 21 Dec 2023
A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties Junfei Xiao Ziqi Zhou Wenxuan Li Shiyi Lan Jieru Mei Zhiding Yu Alan Yuille Yuyin Zhou Cihang Xie VLM 62 1 0 21 Dec 2023
Perception Test 2023: A Summary of the First Challenge And Outcome Joseph Heyward João Carreira Dima Damen Andrew Zisserman Viorica Patraucean 68 0 0 20 Dec 2023
Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation Wenhao Xu Rongtao Xu Changwei Wang Shibiao Xu Li Guo Man Zhang Xiaopeng Zhang VLM 95 12 0 20 Dec 2023
Weakly Supervised Open-Vocabulary Object Detection Jianghang Lin Yunhang Shen Bingquan Wang Shaohui Lin Ke Li Liujuan Cao WSOD 85 9 0 19 Dec 2023
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model Shraman Pramanick Guangxing Han Rui Hou Sayan Nag Ser-Nam Lim Nicolas Ballas Qifan Wang Rama Chellappa Amjad Almahairi VLM MLLM 167 36 0 19 Dec 2023
Context Disentangling and Prototype Inheriting for Robust Visual Grounding Wei Tang Liang Li Xuejing Liu Lu Jin Jinhui Tang Zechao Li 101 26 0 19 Dec 2023
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation Sihan Liu Yiwei Ma Xiaoqing Zhang Haowei Wang Jiayi Ji Xiaoshuai Sun Rongrong Ji 135 47 0 19 Dec 2023
Text-Conditioned Resampler For Long Form Video Understanding Bruno Korbar Yongqin Xian A. Tonioni Andrew Zisserman Federico Tombari 108 12 0 19 Dec 2023
Pixel Aligned Language Models Jiarui Xu Xingyi Zhou Shen Yan Xiuye Gu Anurag Arnab Chen Sun Xiaolong Wang Cordelia Schmid MLLM VLM 132 15 0 14 Dec 2023
General Object Foundation Model for Images and Videos at Scale Junfeng Wu Yi Jiang Qihao Liu Zehuan Yuan Xiang Bai Song Bai VOS VLM 111 41 0 14 Dec 2023
Exploration of visual prompt in Grounded pre-trained open-set detection Qibo Chen Weizhong Jin Shuchang Li Mengdi Liu Li Yu Jian Jiang Xiaozheng Wang VLM 28 0 0 14 Dec 2023
Segment Beyond View: Handling Partially Missing Modality for Audio-Visual Semantic Segmentation Renjie Wu Hu Wang Feras Dayoub Hsiang-Ting Chen 68 5 0 14 Dec 2023
SKDF: A Simple Knowledge Distillation Framework for Distilling Open-Vocabulary Knowledge to Open-world Object Detector Shuailei Ma Yuefeng Wang Ying-yu Wei Jiaqi Fan Enming Zhang Xinyu Sun Peihao Chen ObjD 92 1 0 14 Dec 2023
EZ-CLIP: Efficient Zeroshot Video Action Recognition Shahzad Ahmad S. Chanda Yogesh S Rawat VLM 76 7 0 13 Dec 2023
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor Shuyang Sun Runjia Li Philip Torr Xiuye Gu Siyang Li VLM CLIP 140 34 0 12 Dec 2023
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator Henry Hengyuan Zhao Pan Zhou Mike Zheng Shou MLLM SyDa 107 7 0 11 Dec 2023
Visual Grounding of Whole Radiology Reports for 3D CT Images Akimichi Ichinose Taro Hatsutani Keigo Nakamura Yoshiro Kitamura S. Iizuka E. Simo-Serra Shoji Kido Noriyuki Tomiyama 82 9 0 08 Dec 2023
Improved Visual Grounding through Self-Consistent Explanations Ruozhen He Paola Cascante-Bonilla Ziyan Yang Alexander C. Berg Vicente Ordonez ReLM ObjD LRM FAtt 93 12 0 07 Dec 2023
GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models Haicheng Liao Huanming Shen Zhenning Li Chengyue Wang Guofa Li Yiming Bie Chengzhong Xu 117 54 0 06 Dec 2023
LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models Hao Zhang Hongyang Li Feng Li Tianhe Ren Xueyan Zou ... Shijia Huang Jianfeng Gao Lei Zhang Chun-yue Li Jianwei Yang 189 76 0 05 Dec 2023
Lenna: Language Enhanced Reasoning Detection Assistant Fei Wei Xinyu Zhang Ailing Zhang Bo Zhang Xiangxiang Chu MLLM LRM 99 25 0 05 Dec 2023
Aligning and Prompting Everything All at Once for Universal Visual Perception Yunhang Shen Chaoyou Fu Peixian Chen Mengdan Zhang Ke Li Xing Sun Yunsheng Wu Shaohui Lin Rongrong Ji VLM ObjD 122 39 0 04 Dec 2023
Towards Generalizable Referring Image Segmentation via Target Prompt and Visual Coherence Yajie Liu Pu Ge Haoxiang Ma Shichao Fan Qingjie Liu Di Huang Yunhong Wang 64 0 0 01 Dec 2023
InstructSeq: Unifying Vision Tasks with Instruction-conditioned Multi-modal Sequence Generation Rongyao Fang Shilin Yan Zhaoyang Huang Jingqiu Zhou Hao Tian Jifeng Dai Hongsheng Li MLLM 106 14 0 30 Nov 2023
Language-conditioned Detection Transformer Jang Hyun Cho Philipp Krahenbuhl VLM ObjD 95 1 0 29 Nov 2023
The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding Lorenzo Bianchi F. Carrara Nicola Messina Claudio Gennaro Fabrizio Falchi ObjD 117 13 0 29 Nov 2023
No Representation Rules Them All in Category Discovery S. Vaze Andrea Vedaldi Andrew Zisserman OOD 92 36 0 28 Nov 2023
Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions Zeyu Han Fangrui Zhu Qianru Lao Huaizu Jiang ObjD 151 12 0 28 Nov 2023
Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models Yufei Zhan Yousong Zhu Zhiyang Chen Fan Yang E. Goles Jinqiao Wang ObjD 114 17 0 24 Nov 2023
Visual In-Context Prompting Feng Li Qing Jiang Hao Zhang Tianhe Ren Shilong Liu ... Hongyang Li Chun-yue Li Jianwei Yang Lei Zhang Jianfeng Gao VLM LRM MLLM 89 36 0 22 Nov 2023
Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models Xiaoyu Yang Lijian Xu Hao Sun Hongsheng Li Shaoting Zhang ObjD 87 6 0 21 Nov 2023
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning Junke Wang Lingchen Meng Zejia Weng Bo He Zuxuan Wu Yu-Gang Jiang MLLM VLM 121 108 0 13 Nov 2023
PerceptionGPT: Effectively Fusing Visual Perception into LLM Renjie Pi Lewei Yao Jiahui Gao Jipeng Zhang Tong Zhang MLLM 93 36 0 11 Nov 2023
Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter Georgios Tziafas Yucheng Xu Arushi Goel Mohammadreza Kasaei Zhibin Li Hamidreza Kasaei 93 28 0 09 Nov 2023
DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D Facial Animation Guinan Su Yanwu Yang Zhifeng Li VGen 69 1 0 08 Nov 2023
GLaMM: Pixel Grounding Large Multimodal Model H. Rasheed Muhammad Maaz Sahal Shaji Mullappilly Abdelrahman M. Shaker Salman Khan Hisham Cholakkal Rao M. Anwer Erix Xing Ming-Hsuan Yang Fahad S. Khan MLLM VLM 155 239 0 06 Nov 2023
Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models Jingru Yi Burak Uzkent Oana Ignat Zili Li Amanmeet Garg Xiang Yu Linda Liu VLM 80 1 0 05 Nov 2023
Proposal-Level Unsupervised Domain Adaptation for Open World Unbiased Detector Xuanyi Liu Zhongqi Yue Xian-Sheng Hua 113 0 0 04 Nov 2023
Recognize Any Regions Haosen Yang Chuofan Ma Bin Wen Yi Jiang Zehuan Yuan Xiatian Zhu ObjD VLM 96 3 0 02 Nov 2023
Spuriosity Rankings for Free: A Simple Framework for Last Layer Retraining Based on Object Detection Mohammad Azizmalayeri Reza Abbasi Amir Hosein Haji Mohammad Rezaie Reihaneh Zohrabi Mahdi Amiri M. T. Manzuri M. Rohban 54 0 0 31 Oct 2023
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis Yingshu Li Yunyi Liu Zhanyu Wang Xinyu Liang Lei Wang Lingqiao Liu Leyang Cui Zhaopeng Tu Longyue Wang Luping Zhou ELM LM&MA 100 39 0 31 Oct 2023
3D-Aware Visual Question Answering about Parts, Poses and Occlusions Xingrui Wang Wufei Ma Zhuowan Li Adam Kortylewski Alan Yuille CoGe 105 14 0 27 Oct 2023
RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments Mengxue Qu Yu-Huan Wu Wu Liu Xiaodan Liang Jingkuan Song Yao-Min Zhao Yunchao Wei 43 17 0 26 Oct 2023
Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network Yiming Lin Xiao-Bo Jin Qiufeng Wang Kaizhu Huang 72 3 0 25 Oct 2023
Video Referring Expression Comprehension via Transformer with Content-conditioned Query Jiang Ji Meng Cao Tengtao Song Long Chen Yi Wang Yuexian Zou 88 6 0 25 Oct 2023
What's Left? Concept Grounding with Logic-Enhanced Foundation Models Joy Hsu Jiayuan Mao Joshua B. Tenenbaum Jiajun Wu VLM ReLM LRM 98 25 0 24 Oct 2023