Modeling Relationships in Referential Expressions with Compositional Modular Networks

30 November 2016

Papers citing "Modeling Relationships in Referential Expressions with Compositional Modular Networks"

50 / 60 papers shown

Title
SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators Rasoul Shafipour David Harrison Maxwell Horton Jeffrey Marker Houman Bedayat Sachin Mehta Mohammad Rastegari Mahyar Najibi Saman Naderiparizi MQ 57 3 0 14 Oct 2024
SECURE: Semantics-aware Embodied Conversation under Unawareness for Lifelong Robot Learning Rimvydas Rubavicius Peter David Fagan A. Lascarides Subramanian Ramamoorthy LM&Ro 139 0 0 26 Sep 2024
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model Shraman Pramanick Guangxing Han Rui Hou Sayan Nag Ser-Nam Lim Nicolas Ballas Qifan Wang Rama Chellappa Amjad Almahairi VLM MLLM 45 29 0 19 Dec 2023
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo VLM MLLM 85 224 0 07 Jul 2023
Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation Chang Liu Henghui Ding Yulun Zhang Xudong Jiang 26 47 0 24 May 2023
CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension Zhi Zhang H. Yannakoudakis Xiantong Zhen Ekaterina Shutova 29 2 0 17 Feb 2023
DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding Siyi Liu Yaoyuan Liang Feng Li Shijia Huang Hao Zhang Hang Su Jun Zhu Lei Zhang ObjD 50 25 0 28 Nov 2022
YORO -- Lightweight End to End Visual Grounding Chih-Hui Ho Srikar Appalaraju Bhavan A. Jasani R. Manmatha Nuno Vasconcelos ObjD 21 21 0 15 Nov 2022
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data Yangfan Zhan Zhitong Xiong Yuan. Yuan 74 106 0 23 Oct 2022
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning Xu Yang Hanwang Zhang Chongyang Gao Jianfei Cai MLLM 40 10 0 04 Oct 2022
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding Fengyuan Shi Ruopeng Gao Weilin Huang Limin Wang 27 23 0 28 Sep 2022
RefCrowd: Grounding the Target in Crowd with Referring Expressions Heqian Qiu Hongliang Li Taijin Zhao Lanxiao Wang Qingbo Wu Fanman Meng ObjD 24 6 0 16 Jun 2022
Referring Image Matting Jizhizi Li Jing Zhang Dacheng Tao ObjD VLM 23 22 0 10 Jun 2022
Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning Li Yang Yan Xu Chunfen Yuan Wei Liu Bing Li Weiming Hu ObjD 50 113 0 30 Apr 2022
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension Sanjay Subramanian William Merrill Trevor Darrell Matt Gardner Sameer Singh Anna Rohrbach ObjD 27 125 0 12 Apr 2022
Position-aware Location Regression Network for Temporal Video Grounding Sunoh Kim Kimin Yun J. Choi 22 4 0 12 Apr 2022
Adapting CLIP For Phrase Localization Without Further Training Jiahao Li G. Shakhnarovich Raymond A. Yeh VLM CLIP 30 25 0 07 Apr 2022
TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 28 94 0 30 Mar 2022
Local-Global Context Aware Transformer for Language-Guided Video Segmentation Chen Liang Wenguan Wang Tianfei Zhou Jiaxu Miao Yawei Luo Yi Yang VOS 29 74 0 18 Mar 2022
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding Haojun Jiang Yuanze Lin Dongchen Han Shiji Song Gao Huang ObjD 40 50 0 16 Mar 2022
Incremental Object Grounding Using Scene Graphs J. Yi Yoonwoo Kim Sonia Chernova LM&Ro 28 9 0 06 Jan 2022
Video as Conditional Graph Hierarchy for Multi-Granular Question Answering Junbin Xiao Angela Yao Zhiyuan Liu Yicong Li Wei Ji Tat-Seng Chua 30 111 0 12 Dec 2021
Audio-Visual Grounding Referring Expression for Robotic Manipulation Yefei Wang Kaili Wang Yi Wang Di Guo Huaping Liu F. Sun 38 12 0 22 Sep 2021
YouRefIt: Embodied Reference Understanding with Language and Gesture Yixin Chen Qing Li Deqian Kong Yik Lun Kei Song-Chun Zhu Tao Gao Yixin Zhu Siyuan Huang LM&Ro 37 41 0 08 Sep 2021
Vision-Language Transformer and Query Generation for Referring Segmentation Henghui Ding Chang-rui Liu Suchen Wang Xudong Jiang 40 251 0 12 Aug 2021
Referring Transformer: A One-step Approach to Multi-task Visual Grounding Muchen Li Leonid Sigal ObjD 13 187 0 06 Jun 2021
TransVG: End-to-End Visual Grounding with Transformers Jiajun Deng Zhengyuan Yang Tianlang Chen Wen-gang Zhou Houqiang Li ViT 28 330 0 17 Apr 2021
Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos Sijie Song Xudong Lin Jiaying Liu Zongming Guo Shih-Fu Chang ObjD 21 16 0 23 Mar 2021
Utilizing Every Image Object for Semi-supervised Phrase Grounding Haidong Zhu Arka Sadhu Zhao-Heng Zheng Ram Nevatia ObjD 17 7 0 05 Nov 2020
Learning Object Detection from Captions via Textual Scene Attributes Achiya Jerbi Roei Herzig Jonathan Berant Gal Chechik Amir Globerson 27 21 0 30 Sep 2020
Ref-NMS: Breaking Proposal Bottlenecks in Two-Stage Referring Expression Grounding Long Chen Wenbo Ma Jun Xiao Hanwang Zhang Shih-Fu Chang ObjD 14 89 0 03 Sep 2020
PhraseCut: Language-based Image Segmentation in the Wild Chenyun Wu Zhe-nan Lin Scott D. Cohen Trung Bui Subhransu Maji VLM 13 111 0 03 Aug 2020
Object-and-Action Aware Model for Visual Language Navigation Yuankai Qi Zizheng Pan Shengping Zhang Anton Van Den Hengel Qi Wu LM&Ro 18 111 0 29 Jul 2020
Referring Expression Comprehension: A Survey of Methods and Datasets Yanyuan Qiao Chaorui Deng Qi Wu ObjD 50 93 0 19 Jul 2020
Give Me Something to Eat: Referring Expression Comprehension with Commonsense Knowledge Peng Wang Dongyang Liu Hui Li Qi Wu ObjD 24 19 0 02 Jun 2020
Words aren't enough, their order matters: On the Robustness of Grounding Visual Referring Expressions Arjun Reddy Akula Spandana Gella Yaser Al-Onaizan Song-Chun Zhu Siva Reddy ObjD 18 52 0 04 May 2020
A Real-time Global Inference Network for One-stage Referring Expression Comprehension Yiyi Zhou Rongrong Ji Gen Luo Xiaoshuai Sun Jinsong Su Xinghao Ding Chia-Wen Lin Q. Tian ObjD 24 60 0 07 Dec 2019
Synthetic Data for Deep Learning Sergey I. Nikolenko 46 348 0 25 Sep 2019
Talk2Car: Taking Control of Your Self-Driving Car Thierry Deruyttere Simon Vandenhende Dusan Grujicic Luc Van Gool Marie-Francine Moens LM&Ro 23 124 0 24 Sep 2019
Multimodal Unified Attention Networks for Vision-and-Language Interactions Zhou Yu Yuhao Cui Jun Yu Dacheng Tao Q. Tian 24 38 0 12 Aug 2019
Exploiting Temporal Relationships in Video Moment Localization with Natural Language Songyang Zhang Jinsong Su Jiebo Luo 12 74 0 11 Aug 2019
Variational Context: Exploiting Visual and Textual Context for Grounding Referring Expressions Yulei Niu Hanwang Zhang Zhiwu Lu Shih-Fu Chang ObjD BDL 36 24 0 08 Jul 2019
Language-Conditioned Graph Networks for Relational Reasoning Ronghang Hu Anna Rohrbach Trevor Darrell Kate Saenko 31 171 0 10 May 2019
A Review of Modularization Techniques in Artificial Neural Networks Mohammed Amer Tomás Maul 26 80 0 29 Apr 2019
Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing Xihui Liu Zihao Wang Jing Shao Xiaogang Wang Hongsheng Li ObjD 19 180 0 03 Mar 2019
Visual Entailment: A Novel Task for Fine-Grained Image Understanding Ning Xie Farley Lai Derek Doran Asim Kadav CoGe 51 322 0 20 Jan 2019
Neighbourhood Watch: Referring Expression Comprehension via Language-guided Graph Attention Networks Peng Wang Qi Wu Jiewei Cao Chunhua Shen Lianli Gao Anton Van Den Hengel ObjD 22 252 0 12 Dec 2018
From Recognition to Cognition: Visual Commonsense Reasoning Rowan Zellers Yonatan Bisk Ali Farhadi Yejin Choi LRM BDL OCL ReLM 27 865 0 27 Nov 2018
LinkNet: Relational Embedding for Scene Graph Sanghyun Woo Dahun Kim Donghyeon Cho In So Kweon GNN 15 147 0 15 Nov 2018
Visual Semantic Navigation using Scene Priors Wei Yang Xinyu Wang Ali Farhadi Abhinav Gupta Roozbeh Mottaghi LM&Ro 27 320 0 15 Oct 2018