v1v2v3v4 (latest)

Conditional Image-Text Embedding Networks

22 November 2017

Papers citing "Conditional Image-Text Embedding Networks"

50 / 75 papers shown

Title
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 282 5 0 31 Dec 2024
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding Minghang Zheng Jiahua Zhang Qingchao Chen Yuxin Peng Yang Liu ObjD 96 2 0 29 Aug 2024
Visual Grounding with Attention-Driven Constraint Balancing Weitai Kang Luowei Zhou Junyi Wu Changchang Sun Yan Yan 74 4 0 03 Jul 2024
SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding Weitai Kang Gaowen Liu Mubarak Shah Yan Yan ObjD 119 9 0 03 Jul 2024
You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval Subhadeep Koley A. Bhunia Aneeshan Sain Pinaki Nath Chowdhury Tao Xiang Yi-Zhe Song 3DV 118 11 0 12 Mar 2024
Context Disentangling and Prototype Inheriting for Robust Visual Grounding Wei Tang Liang Li Xuejing Liu Lu Jin Jinhui Tang Zechao Li 101 26 0 19 Dec 2023
Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic Narrative Grounding Tianrui Hui Zihan Ding Junshi Huang Xiaoming Wei Xiaolin K. Wei Jiao Dai Jizhong Han Si Liu 99 5 0 02 Nov 2023
NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning Haowei Wang Jiayi Ji Tianyu Guo Yilong Yang Yiyi Zhou Xiaoshuai Sun Rongrong Ji 95 5 0 17 Oct 2023
Language-Guided Diffusion Model for Visual Grounding Sijia Chen Baochun Li 140 5 0 18 Aug 2023
Multimodal Query-guided Object Localization Aditay Tripathi Rajath R Dani Anand Mishra Anirban Chakraborty 60 0 0 01 Dec 2022
DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding Siyi Liu Yaoyuan Liang Feng Li Shijia Huang Hao Zhang Hang Su Jun Zhu Lei Zhang ObjD 105 28 0 28 Nov 2022
YORO -- Lightweight End to End Visual Grounding Chih-Hui Ho Srikar Appalaraju Bhavan A. Jasani R. Manmatha Nuno Vasconcelos ObjD 57 22 0 15 Nov 2022
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding Fengyuan Shi Ruopeng Gao Weilin Huang Limin Wang 105 28 0 28 Sep 2022
Ground then Navigate: Language-guided Navigation in Dynamic Scenes Kanishk Jain Varun Chhangani Amogh Tiwari K. M. Krishna Vineet Gandhi LM&Ro 73 30 0 24 Sep 2022
DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for Text-to-Image Generation Mengqi Huang Zhendong Mao Penghui Wang Quang Wang Yongdong Zhang 68 21 0 03 Sep 2022
PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding Zihan Ding Zixiang Ding Tianrui Hui Junshi Huang Xiaoming Wei Xiaolin K. Wei Si Liu 94 14 0 11 Aug 2022
One for All: One-stage Referring Expression Comprehension with Dynamic Reasoning Zhipeng Zhang Zhimin Wei Zhongzhen Huang Rui Niu Peng Wang ObjD LRM 72 9 0 31 Jul 2022
Correspondence Matters for Video Referring Expression Comprehension Meng Cao Ji Jiang Long Chen Yuexian Zou VOS 82 20 0 21 Jul 2022
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases Zhihao Yuan Xu Yan Zhuo Li Xuhao Li Yao Guo Shuguang Cui Zhen Li 79 17 0 05 Jul 2022
TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer Jiajun Deng Zhengyuan Yang Daqing Liu Tianlang Chen Wen-gang Zhou Yanyong Zhang Houqiang Li Wanli Ouyang ViT 107 57 0 14 Jun 2022
Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning Li Yang Yan Xu Chunfen Yuan Wei Liu Bing Li Weiming Hu ObjD 87 119 0 30 Apr 2022
SceneTrilogy: On Human Scene-Sketch and its Complementarity with Photo and Text Pinaki Nath Chowdhury A. Bhunia Aneeshan Sain Subhadeep Koley Tao Xiang Yi-Zhe Song 94 30 0 25 Apr 2022
Identifying Ambiguous Similarity Conditions via Semantic Matching Han-Jia Ye Yi Shi De-Chuan Zhan CoGe 60 7 0 08 Apr 2022
Adapting CLIP For Phrase Localization Without Further Training Jiahao Li G. Shakhnarovich Raymond A. Yeh VLM CLIP 90 25 0 07 Apr 2022
Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding Yang Jiao Zequn Jie Jingjing Chen Lin Ma Yu-Gang Jiang OOD 63 8 0 10 Mar 2022
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 298 527 0 22 Feb 2022
Unpaired Referring Expression Grounding via Bidirectional Cross-Modal Matching Hengcan Shi Munawar Hayat Jianfei Cai ObjD 74 10 0 18 Jan 2022
Deconfounded Visual Grounding Jianqiang Huang Yu Qin Jiaxin Qi Qianru Sun Hanwang Zhang CML ObjD 63 33 0 31 Dec 2021
From Coarse to Fine-grained Concept based Discrimination for Phrase Detection Maan Qraitem Bryan A. Plummer ObjD 41 0 0 06 Dec 2021
Anchoring to Exemplars for Training Mixture-of-Expert Cell Embeddings Siqi Wang Manyuan Lu Nikita Moshkov Juan C. Caicedo Bryan A. Plummer 51 4 0 06 Dec 2021
Reconstructing and grounding narrated instructional videos in 3D Dimitri Zhukov Ignacio Rocco Ivan Laptev Josef Sivic Johannes L. Schnberger Bugra Tekin Marc Pollefeys 23 0 0 09 Sep 2021
Sharing Cognition: Human Gesture and Natural Language Grounding Based Planning and Navigation for Indoor Robots Gourav Kumar Soumyadip Maity R. Roychoudhury Brojeshwar Bhowmick LM&Ro 27 1 0 14 Aug 2021
A Better Loss for Visual-Textual Grounding Davide Rigoni Luciano Serafini A. Sperduti ObjD 53 3 0 11 Aug 2021
Distributed Attention for Grounded Image Captioning Nenglun Chen Xingjia Pan Runnan Chen Lei Yang Zhiwen Lin Yuqiang Ren Haolei Yuan Xiaowei Guo Feiyue Huang Wenping Wang 66 21 0 02 Aug 2021
Contextualizing Meta-Learning via Learning to Decompose Han-Jia Ye Da-Wei Zhou Lanqing Hong Zhenguo Li Xiu-Shen Wei De-Chuan Zhan 83 7 0 15 Jun 2021
Referring Transformer: A One-step Approach to Multi-task Visual Grounding Muchen Li Leonid Sigal ObjD 116 197 0 06 Jun 2021
VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language Matching Chenchi Zhang Wenbo Ma Jun Xiao Hanwang Zhang Jian Shao Yueting Zhuang Long Chen 83 4 0 12 May 2021
Effectively Leveraging Attributes for Visual Similarity Samarth Mishra Zhongping Zhang Yuan-Chung Shen Ranjitha Kumar Venkatesh Saligrama Bryan A. Plummer 68 10 0 04 May 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 220 897 0 26 Apr 2021
Comprehensive Multi-Modal Interactions for Referring Image Segmentation Kanishk Jain Vineet Gandhi 75 18 0 21 Apr 2021
TransVG: End-to-End Visual Grounding with Transformers Jiajun Deng Zhengyuan Yang Tianlang Chen Wen-gang Zhou Houqiang Li ViT 99 348 0 17 Apr 2021
Disentangled Motif-aware Graph Learning for Phrase Grounding Zongshen Mu Siliang Tang Jie Tan Qiang Yu Yueting Zhuang GNN 97 35 0 13 Apr 2021
Look Before You Leap: Learning Landmark Features for One-Stage Visual Grounding Binbin Huang Dongze Lian Weixin Luo Shenghua Gao ObjD 76 99 0 09 Apr 2021
Relation-aware Instance Refinement for Weakly Supervised Visual Grounding Yongfei Liu Bo Wan Lin Ma Xuming He ObjD 94 57 0 24 Mar 2021
Few-Shot Visual Grounding for Natural Human-Robot Interaction Georgios Tziafas S. Kasaei 79 7 0 17 Mar 2021
Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning Mingjie Sun Jimin Xiao Eng Gee Lim ObjD 79 35 0 09 Mar 2021
PPGN: Phrase-Guided Proposal Generation Network For Referring Expression Comprehension Chao Yang Guoqing Wang Dongsheng Li Huawei Shen Su Feng Bin Jiang 19 3 0 20 Dec 2020
SIRI: Spatial Relation Induced Network For Spatial Description Resolution Peiyao Wang Weixin Luo Yanyu Xu Haojie Li Shugong Xu Jianyu Yang Shenghua Gao 23 0 0 27 Oct 2020
PhraseCut: Language-based Image Segmentation in the Wild Chenyun Wu Zhe Lin Scott D. Cohen Trung Bui Subhransu Maji VLM 70 115 0 03 Aug 2020
Describing Textures using Natural Language Chenyun Wu Mikayla Timm Subhransu Maji 3DV 58 10 0 03 Aug 2020