Grounding Referring Expressions in Images by Variational Context

5 December 2017

Papers citing "Grounding Referring Expressions in Images by Variational Context"

36 / 36 papers shown

Title
UniVS: Unified and Universal Video Segmentation with Prompts as Queries Ming-hui Li Shuai Li Xindong Zhang Lei Zhang VOS 41 16 0 28 Feb 2024
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment Xiaoxu Xu Yitian Yuan Qiudan Zhang Wen-Bin Wu Zequn Jie Lin Ma Xu Wang 56 4 0 15 Dec 2023
Embodied Concept Learner: Self-supervised Learning of Concepts and Mapping through Instruction Following Mingyu Ding Yan Xu Zhenfang Chen David D. Cox Ping Luo J. Tenenbaum Chuang Gan LM&Ro 56 21 0 07 Apr 2023
Locate Then Generate: Bridging Vision and Language with Bounding Box for Scene-Text VQA Yongxin Zhu Z. Liu Yukang Liang Xin Li Hao Liu Changcun Bao Linli Xu 21 6 0 04 Apr 2023
CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension Zhi Zhang H. Yannakoudakis Xiantong Zhen Ekaterina Shutova 21 2 0 17 Feb 2023
YORO -- Lightweight End to End Visual Grounding Chih-Hui Ho Srikar Appalaraju Bhavan A. Jasani R. Manmatha Nuno Vasconcelos ObjD 21 21 0 15 Nov 2022
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data Yangfan Zhan Zhitong Xiong Yuan. Yuan 71 106 0 23 Oct 2022
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding Fengyuan Shi Ruopeng Gao Weilin Huang Limin Wang 19 23 0 28 Sep 2022
Ground then Navigate: Language-guided Navigation in Dynamic Scenes Kanishk Jain Varun Chhangani Amogh Tiwari K. M. Krishna Vineet Gandhi LM&Ro 18 27 0 24 Sep 2022
PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding Zihan Ding Zixiang Ding Tianrui Hui Junshi Huang Xiaoming Wei Xiaolin K. Wei Si Liu 12 12 0 11 Aug 2022
Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning Li Yang Yan Xu Chunfen Yuan Wei Liu Bing Li Weiming Hu ObjD 34 113 0 30 Apr 2022
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension Sanjay Subramanian William Merrill Trevor Darrell Matt Gardner Sameer Singh Anna Rohrbach ObjD 21 125 0 12 Apr 2022
TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 28 94 0 30 Mar 2022
Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding Jiabo Ye Junfeng Tian Ming Yan Xiaoshan Yang Xuwu Wang Ji Zhang Liang He Xin Lin ObjD 11 61 0 29 Mar 2022
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding Haojun Jiang Yuanze Lin Dongchen Han Shiji Song Gao Huang ObjD 37 50 0 16 Mar 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 213 0 18 Feb 2022
Unpaired Referring Expression Grounding via Bidirectional Cross-Modal Matching Hengcan Shi Munawar Hayat Jianfei Cai ObjD 18 10 0 18 Jan 2022
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 205 221 0 24 Sep 2021
YouRefIt: Embodied Reference Understanding with Language and Gesture Yixin Chen Qing Li Deqian Kong Yik Lun Kei Song-Chun Zhu Tao Gao Yixin Zhu Siyuan Huang LM&Ro 37 41 0 08 Sep 2021
TransVG: End-to-End Visual Grounding with Transformers Jiajun Deng Zhengyuan Yang Tianlang Chen Wen-gang Zhou Houqiang Li ViT 26 329 0 17 Apr 2021
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images Haolin Liu Anran Lin Xiaoguang Han Lei Yang Yizhou Yu Shuguang Cui 27 39 0 14 Mar 2021
Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment Localization Daizong Liu Xiaoye Qu Xiao-Yang Liu Jianfeng Dong Pan Zhou Zichuan Xu 31 129 0 04 Aug 2020
PhraseCut: Language-based Image Segmentation in the Wild Chenyun Wu Zhe-nan Lin Scott D. Cohen Trung Bui Subhransu Maji VLM 13 111 0 03 Aug 2020
Referring Expression Comprehension: A Survey of Methods and Datasets Yanyuan Qiao Chaorui Deng Qi Wu ObjD 47 93 0 19 Jul 2020
A Real-time Global Inference Network for One-stage Referring Expression Comprehension Yiyi Zhou Rongrong Ji Gen Luo Xiaoshuai Sun Jinsong Su Xinghao Ding Chia-Wen Lin Q. Tian ObjD 24 60 0 07 Dec 2019
Zero-Shot Grounding of Objects from Natural Language Queries Arka Sadhu Kan Chen Ram Nevatia ObjD 30 156 0 20 Aug 2019
A Fast and Accurate One-Stage Approach to Visual Grounding Zhengyuan Yang Boqing Gong Liwei Wang Wenbing Huang Dong Yu Jiebo Luo ObjD 12 360 0 18 Aug 2019
Multimodal Unified Attention Networks for Vision-and-Language Interactions Zhou Yu Yuhao Cui Jun Yu Dacheng Tao Q. Tian 19 38 0 12 Aug 2019
Exploiting Temporal Relationships in Video Moment Localization with Natural Language Songyang Zhang Jinsong Su Jiebo Luo 12 74 0 11 Aug 2019
Variational Context: Exploiting Visual and Textual Context for Grounding Referring Expressions Yulei Niu Hanwang Zhang Zhiwu Lu Shih-Fu Chang ObjD BDL 33 24 0 08 Jul 2019
Context-Aware Visual Policy Network for Fine-Grained Image Captioning Zhengjun Zha Daqing Liu Hanwang Zhang Yongdong Zhang Feng Wu 25 119 0 06 Jun 2019
Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing Xihui Liu Zihao W. Wang Jing Shao Xiaogang Wang Hongsheng Li ObjD 19 180 0 03 Mar 2019
Neighbourhood Watch: Referring Expression Comprehension via Language-guided Graph Attention Networks Peng Wang Qi Wu Jiewei Cao Chunhua Shen Lianli Gao A. Hengel ObjD 22 252 0 12 Dec 2018
Context-Aware Visual Policy Network for Sequence-Level Image Captioning Daqing Liu Zhengjun Zha Hanwang Zhang Yongdong Zhang Feng Wu CLIP 33 103 0 16 Aug 2018
Shuffle-Then-Assemble: Learning Object-Agnostic Visual Relationship Features Xu Yang Hanwang Zhang Jianfei Cai 42 74 0 01 Aug 2018
Visual Translation Embedding Network for Visual Relation Detection Hanwang Zhang Zawlin Kyaw Shih-Fu Chang Tat-Seng Chua ViT 145 560 0 27 Feb 2017