v1v2 (latest)

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

26 April 2021

ArXiv (abs)PDF HTML Github (1008★)

Papers citing "MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding"

50 / 616 papers shown

Title
Detecting the open-world objects with the help of the Brain Shuailei Ma Yuefeng Wang Ying-yu Wei Peihao Chen Zhixiang Ye Jiaqi Fan Enming Zhang Thomas H. Li VLM ObjD 66 3 0 21 Mar 2023
A Region-Prompted Adapter Tuning for Visual Abductive Reasoning Hao Zhang Yeo Keat Ee Basura Fernando VLM 145 3 0 18 Mar 2023
Investigating the Role of Attribute Context in Vision-Language Models for Object Recognition and Detection Kyle Buettner Adriana Kovashka 66 0 0 17 Mar 2023
A Simple Framework for Open-Vocabulary Segmentation and Detection Hao Zhang Feng Li Xueyan Zou Siyi Liu Chun-yue Li Jianfeng Gao Jianwei Yang Lei Zhang ObjD VLM 95 162 0 14 Mar 2023
Medical Phrase Grounding with Region-Phrase Context Contrastive Alignment Zhihao Chen Yangqiaoyu Zhou A. Tran Junting Zhao Liang Wan ... Lionel T. E. Cheng C. Thng Xinxing Xu Yong-Jin Liu Huazhu Fu MedIm 56 23 0 14 Mar 2023
Audio Visual Language Maps for Robot Navigation Chen Huang Oier Mees Andy Zeng Wolfram Burgard VGen 125 36 0 13 Mar 2023
Universal Instance Perception as Object Discovery and Retrieval B. Yan Yi Jiang Jiannan Wu D. Wang Ping Luo Zehuan Yuan Huchuan Lu VOS VLM LRM 155 176 0 12 Mar 2023
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos Teng Wang Jinrui Zhang Feng Zheng Wenhao Jiang Ran Cheng Ping Luo VLM 82 11 0 11 Mar 2023
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip Torr 131 24 0 11 Mar 2023
Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection Luting Wang Yi Liu Penghui Du Zihan Ding Yue Liao Qiaosong Qi Biaolong Chen Si Liu ObjD VLM 134 63 0 10 Mar 2023
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu Zhaoyang Zeng Tianhe Ren Feng Li Hao Zhang ... Chun-yue Li Jianwei Yang Hang Su Jun Zhu Lei Zhang ObjD 214 2,037 0 09 Mar 2023
Toward Unsupervised Realistic Visual Question Answering Yuwei Zhang Chih-Hui Ho Nuno Vasconcelos CoGe 87 2 0 09 Mar 2023
Referring Multi-Object Tracking Dongming Wu Wencheng Han Tiancai Wang Xingping Dong Xiangyu Zhang Jianbing Shen 114 80 0 06 Mar 2023
Naming Objects for Vision-and-Language Manipulation Tokuhiro Nishikawa Kazumi Aoyama Shunichi Sekiguchi Takayoshi Takayanagi Jianing Wu Yu Ishihara Tamaki Kojima Jerry Jun Yokono 58 1 0 06 Mar 2023
CapDet: Unifying Dense Captioning and Open-World Detection Pretraining Yanxin Long Youpeng Wen Jianhua Han Hang Xu Pengzhen Ren Wei Zhang Sheng Zhao Xiaodan Liang ObjD VLM 68 35 0 04 Mar 2023
Open-World Object Manipulation using Pre-trained Vision-Language Models Austin Stone Ted Xiao Yao Lu K. Gopalakrishnan Kuang-Huei Lee ... Sean Kirmani Brianna Zitkovich F. Xia Chelsea Finn Karol Hausman LM&Ro 265 156 0 02 Mar 2023
Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents Wenlong Huang Fei Xia Dhruv Shah Danny Driess Andy Zeng ... Pete Florence Igor Mordatch Sergey Levine Karol Hausman Brian Ichter LM&Ro 91 49 0 01 Mar 2023
Which One Are You Referring To? Multimodal Object Identification in Situated Dialogue Holy Lovenia Samuel Cahyawijaya Pascale Fung 50 1 0 28 Feb 2023
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning Antoine Yang Arsha Nagrani Paul Hongsuck Seo Antoine Miech Jordi Pont-Tuset Ivan Laptev Josef Sivic Cordelia Schmid AI4TS VLM 175 242 0 27 Feb 2023
Localizing Moments in Long Video Via Multimodal Guidance Wayner Barrios Mattia Soldan Alberto M. Ceballos-Arroyo Fabian Caba Heilbron Guohao Li 91 21 0 26 Feb 2023
Focusing On Targets For Improving Weakly Supervised Visual Grounding V. Pham Nao Mishima ObjD 95 1 0 22 Feb 2023
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey Tianlin Li Guangyao Chen Guangwu Qian Pengcheng Gao Xiaoyong Wei Yaowei Wang Yonghong Tian Wen Gao AI4CE VLM 178 216 0 20 Feb 2023
MINOTAUR: Multi-task Video Grounding From Multimodal Queries Raghav Goyal E. Mavroudi Xitong Yang Sainbayar Sukhbaatar Leonid Sigal Matt Feiszli Lorenzo Torresani Du Tran 95 7 0 16 Feb 2023
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang R. Satzoda Vijay Mahadevan R. Manmatha ObjD 126 133 0 14 Feb 2023
Revisiting Pre-training in Audio-Visual Learning Ruoxuan Feng Wenke Xia Di Hu 65 1 0 07 Feb 2023
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video Haiyang Xu Qinghao Ye Mingshi Yan Yaya Shi Jiabo Ye ... Guohai Xu Ji Zhang Songfang Huang Feiran Huang Jingren Zhou MLLM VLM MoE 118 171 0 01 Feb 2023
MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely Coupled Fusion and Modality-Balanced Optimization Yinghui Xing Song Wang Shizhou Zhang Guoqiang Liang Xiuwei Zhang Yanning Zhang ViT 145 8 0 01 Feb 2023
Champion Solution for the WSDM2023 Toloka VQA Challenge Sheng Gao Zhe Chen Guo Chen Wenhai Wang Tong Lu 83 2 0 22 Jan 2023
Linguistic Query-Guided Mask Generation for Referring Image Segmentation Zhichao Wei Xiaohao Chen Mingqiang Chen Siyu Zhu VLM 120 1 0 16 Jan 2023
Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network Haowei Wang Jiayi Ji Yiyi Zhou Yongjian Wu Xiaoshuai Sun 84 15 0 09 Jan 2023
GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods Da Yin Feng Gao Govind Thattai Michael F. Johnston Kai-Wei Chang VLM 94 15 0 05 Jan 2023
PACO: Parts and Attributes of Common Objects Vignesh Ramanathan Anmol Kalia Vladan Petrovic Yiqian Wen Baixue Zheng ... Abhishek Kadian Amir Mousavi Yi-Zhe Song Abhimanyu Dubey D. Mahajan VLM 96 105 0 04 Jan 2023
Position-Aware Contrastive Alignment for Referring Image Segmentation Bo Chen Zhiwei Hu Zhilong Ji Jinfeng Bai W. Zuo 136 7 0 27 Dec 2022
Weakly-Supervised Semantic Segmentation of Ships Using Thermal Imagery Rushil Joshi Ethan R. Adams Matthew R. Ziemann Christopher A. Metzler 55 1 0 26 Dec 2022
Generalized Decoding for Pixel, Image, and Language Xueyan Zou Zi-Yi Dou Jianwei Yang Zhe Gan Linjie Li ... Lu Yuan Nanyun Peng Lijuan Wang Yong Jae Lee Jianfeng Gao VLM MLLM ObjD 128 259 0 21 Dec 2022
Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason? Monika Wysoczañska Tom Monnier Tomasz Trzciñski David Picard ReLM OCL 75 1 0 20 Dec 2022
Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation Matthieu Futeral Cordelia Schmid Ivan Laptev Benoît Sagot Rachel Bawden 106 31 0 20 Dec 2022
Fully and Weakly Supervised Referring Expression Segmentation with End-to-End Learning Hui Li Mingjie Sun Jimin Xiao Eng Gee Lim Yao-Min Zhao 85 21 0 17 Dec 2022
Policy Adaptation from Foundation Model Feedback Yuying Ge Annabella Macaluso Erran L. Li Ping Luo Xiaolong Wang LM&Ro 78 13 0 14 Dec 2022
Find Someone Who: Visual Commonsense Understanding in Human-Centric Grounding Haoxuan You Rui Sun Zhecan Wang Kai-Wei Chang Shih-Fu Chang 53 5 0 14 Dec 2022
Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning Jishnu Mukhoti Tsung-Yu Lin Omid Poursaeed Rui Wang Ashish Shah Philip Torr Ser-Nam Lim VLM 137 83 0 09 Dec 2022
Modularity through Attention: Efficient Training and Transfer of Language-Conditioned Policies for Robot Manipulation Yifan Zhou Shubham D. Sonawani Mariano Phielipp Simon Stepputtis H. B. Amor LM&Ro 85 28 0 08 Dec 2022
Framework-agnostic Semantically-aware Global Reasoning for Segmentation Mir Rayat Imtiaz Hossain Leonid Sigal James J. Little ViT 52 0 0 06 Dec 2022
Fine-tuned CLIP Models are Efficient Video Learners H. Rasheed Muhammad Uzair Khattak Muhammad Maaz Salman Khan Fahad Shahbaz Khan CLIP VLM 123 163 0 06 Dec 2022
Images Speak in Images: A Generalist Painter for In-Context Visual Learning Xinlong Wang Wen Wang Yue Cao Chunhua Shen Tiejun Huang VLM MLLM 166 262 0 05 Dec 2022
CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation Zicheng Zhang Yi Zhu Jian-zhuo Liu Xiaodan Liang Wei Ke 141 29 0 04 Dec 2022
Visual Question Answering From Another Perspective: CLEVR Mental Rotation Tests Christopher Beckham Martin Weiss Florian Golemo S. Honari Derek Nowrouzezahrai C. Pal 112 7 0 03 Dec 2022
Compound Tokens: Channel Fusion for Vision-Language Representation Learning Maxwell Mbabilla Aladago A. Piergiovanni 66 2 0 02 Dec 2022
Learning to Generate Text-grounded Mask for Open-world Semantic Segmentation from Only Image-Text Pairs Junbum Cha Jonghwan Mun Byungseok Roh VLM 128 91 0 01 Dec 2022
Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning Zhuowan Li Xingrui Wang Elias Stengel-Eskin Adam Kortylewski Wufei Ma Benjamin Van Durme Max Planck Institute for Informatics OOD LRM 108 70 0 01 Dec 2022