Natural Language Object Retrieval

13 November 2015

Papers citing "Natural Language Object Retrieval"

50 / 111 papers shown

Title
Commands 4 Autonomous Vehicles (C4AV) Workshop Summary Thierry Deruyttere Simon Vandenhende Dusan Grujicic Yu Liu Luc Van Gool Matthew Blaschko Tinne Tuytelaars Marie-Francine Moens 30 6 0 18 Sep 2020
Cosine meets Softmax: A tough-to-beat baseline for visual grounding N. Rufus U. R. Nair K. M. Krishna Vineet Gandhi 27 13 0 13 Sep 2020
Ref-NMS: Breaking Proposal Bottlenecks in Two-Stage Referring Expression Grounding Long Chen Wenbo Ma Jun Xiao Hanwang Zhang Shih-Fu Chang ObjD 17 89 0 03 Sep 2020
VLANet: Video-Language Alignment Network for Weakly-Supervised Video Moment Retrieval Minuk Ma Sunjae Yoon Junyeong Kim Youngjoon Lee Sunghun Kang Chang D. Yoo 38 78 0 24 Aug 2020
Jointly Cross- and Self-Modal Graph Attention Network for Query-Based Moment Localization Daizong Liu Xiaoye Qu Xiao-Yang Liu Jianfeng Dong Pan Zhou Zichuan Xu 33 129 0 04 Aug 2020
PhraseCut: Language-based Image Segmentation in the Wild Chenyun Wu Zhe-nan Lin Scott D. Cohen Trung Bui Subhransu Maji VLM 13 111 0 03 Aug 2020
Referring Expression Comprehension: A Survey of Methods and Datasets Yanyuan Qiao Chaorui Deng Qi Wu ObjD 50 93 0 19 Jul 2020
Visual Relation Grounding in Videos Junbin Xiao Xindi Shang Xun Yang Sheng Tang Tat-Seng Chua 20 40 0 17 Jul 2020
Give Me Something to Eat: Referring Expression Comprehension with Commonsense Knowledge Peng Wang Dongyang Liu Hui Li Qi Wu ObjD 24 19 0 02 Jun 2020
Words aren't enough, their order matters: On the Robustness of Grounding Visual Referring Expressions Arjun Reddy Akula Spandana Gella Yaser Al-Onaizan Song-Chun Zhu Siva Reddy ObjD 26 52 0 04 May 2020
Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection Hanjie Chen Guangtao Zheng Yangfeng Ji FAtt 36 92 0 04 Apr 2020
Giving Commands to a Self-driving Car: A Multimodal Reasoner for Visual Grounding Thierry Deruyttere Guillem Collell Marie-Francine Moens LRM 19 8 0 19 Mar 2020
ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language Dave Zhenyu Chen Angel X. Chang Matthias Nießner 3DPC 47 347 0 18 Dec 2019
A Real-time Global Inference Network for One-stage Referring Expression Comprehension Yiyi Zhou Rongrong Ji Gen Luo Xiaoshuai Sun Jinsong Su Xinghao Ding Chia-Wen Lin Q. Tian ObjD 24 60 0 07 Dec 2019
Talk2Car: Taking Control of Your Self-Driving Car Thierry Deruyttere Simon Vandenhende Dusan Grujicic Luc Van Gool Marie-Francine Moens LM&Ro 28 124 0 24 Sep 2019
Scene Graph Parsing by Attention Graph Martin Andrews Yew Ken Chia Sam Witteveen GNN 30 11 0 13 Sep 2019
MULE: Multimodal Universal Language Embedding Donghyun Kim Kuniaki Saito Kate Saenko Stan Sclaroff Bryan A. Plummer VLM 32 40 0 08 Sep 2019
Phrase Localization Without Paired Training Examples Josiah Wang Lucia Specia 35 41 0 20 Aug 2019
Zero-Shot Grounding of Objects from Natural Language Queries Arka Sadhu Kan Chen Ram Nevatia ObjD 30 156 0 20 Aug 2019
A Fast and Accurate One-Stage Approach to Visual Grounding Zhengyuan Yang Boqing Gong Liwei Wang Wenbing Huang Dong Yu Jiebo Luo ObjD 14 360 0 18 Aug 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 20 132 0 22 Jul 2019
Variational Context: Exploiting Visual and Textual Context for Grounding Referring Expressions Yulei Niu Hanwang Zhang Zhiwu Lu Shih-Fu Chang ObjD BDL 36 24 0 08 Jul 2019
TVQA+: Spatio-Temporal Grounding for Video Question Answering Jie Lei Licheng Yu Tamara L. Berg Joey Tianyi Zhou 31 227 0 25 Apr 2019
Unsupervised Discovery of Multimodal Links in Multi-image, Multi-sentence Documents Jack Hessel Lillian Lee David M. Mimno 31 30 0 16 Apr 2019
Weakly Supervised Video Moment Retrieval From Text Queries Niluthpol Chowdhury Mithun S. Paul A. Roy-Chowdhury 30 193 0 05 Apr 2019
Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing Xihui Liu Zihao Wang Jing Shao Xiaogang Wang Hongsheng Li ObjD 19 180 0 03 Mar 2019
Neighbourhood Watch: Referring Expression Comprehension via Language-guided Graph Attention Networks Peng Wang Qi Wu Jiewei Cao Chunhua Shen Lianli Gao Anton Van Den Hengel ObjD 22 252 0 12 Dec 2018
Multi-task Learning of Hierarchical Vision-Language Representation Duy-Kien Nguyen Takayuki Okatani 23 51 0 03 Dec 2018
LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking Heng Fan Liting Lin Fan Yang Peng Chu Ge Deng Sijia Yu Hexin Bai Yong-mei Xu Chunyuan Liao Haibin Ling VOT 45 1,151 0 20 Sep 2018
TVQA: Localized, Compositional Video Question Answering Muhammad Abdul Wahab Licheng Yu Mounir Nasr Allah Tamara L. Berg 36 617 0 05 Sep 2018
Attentive Sequence to Sequence Translation for Localizing Clips of Interest by Natural Language Descriptions Ke Ning Linchao Zhu Ming Cai Yi Yang Di Xie Fei Wu 21 2 0 27 Aug 2018
Dynamic Multimodal Instance Segmentation guided by natural language queries Edgar Margffoy-Tuay Juan C. Pérez Emilio Botero Pablo Arbelaez 27 170 0 06 Jul 2018
Visual Referring Expression Recognition: What Do Systems Actually Learn? Volkan Cirik Louis-Philippe Morency Taylor Berg-Kirkpatrick 31 63 0 30 May 2018
Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding Zhou Yu Jun-chen Yu Chenchao Xiang Zhou Zhao Q. Tian Dacheng Tao ObjD 18 138 0 09 May 2018
Interpretable and Globally Optimal Prediction for Textual Grounding using Image Concepts Raymond A. Yeh Jinjun Xiong Wen-mei W. Hwu Minh Do A. Schwing 30 57 0 29 Mar 2018
Unsupervised Textual Grounding: Linking Words to Image Concepts Raymond A. Yeh Minh Do A. Schwing 22 40 0 29 Mar 2018
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 200 434 0 27 Mar 2018
Actor and Action Video Segmentation from a Sentence Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek VLM 25 146 0 20 Mar 2018
Zero-Shot Object Detection: Learning to Simultaneously Recognize and Localize Novel Concepts Shafin Rahman Salman Khan Fatih Porikli ObjD 34 151 0 16 Mar 2018
Grounding Referring Expressions in Images by Variational Context Hanwang Zhang Yulei Niu Shih-Fu Chang BDL ObjD 21 219 0 05 Dec 2017
Object Referring in Visual Scene with Spoken Language A. Vasudevan Dengxin Dai Luc Van Gool 37 18 0 10 Nov 2017
Reasoning about Fine-grained Attribute Phrases using Reference Games Jong-Chyi Su Chenyun Wu Huaizu Jiang Subhransu Maji 34 16 0 29 Aug 2017
VQS: Linking Segmentations to Questions and Answers for Supervised Attention in VQA and Question-Focused Semantic Segmentation Chuang Gan Yandong Li Haoxiang Li Chen Sun Boqing Gong 27 126 0 15 Aug 2017
Weakly Supervised Image Annotation and Segmentation with Objects and Attributes Zhiyuan Shi Yongxin Yang Timothy M. Hospedales Tao Xiang 13 46 0 08 Aug 2017
Localizing Moments in Video with Natural Language Lisa Anne Hendricks Oliver Wang Eli Shechtman Josef Sivic Trevor Darrell Bryan C. Russell 55 927 0 04 Aug 2017
OBJ2TEXT: Generating Visually Descriptive Language from Object Layouts Xuwang Yin Vicente Ordonez VLM 40 55 0 22 Jul 2017
Multimodal Machine Learning: A Survey and Taxonomy T. Baltrušaitis Chaitanya Ahuja Louis-Philippe Morency 15 2,865 0 26 May 2017
TALL: Temporal Activity Localization via Language Query J. Gao Chen Sun Zhenheng Yang Ram Nevatia 68 799 0 05 May 2017
Weakly-supervised Visual Grounding of Phrases with Linguistic Structures Fanyi Xiao Leonid Sigal Yong Jae Lee 35 138 0 03 May 2017
Recurrent Multimodal Interaction for Referring Image Segmentation Chenxi Liu Zhe-nan Lin Xiaohui Shen Jimei Yang Xin Lu Alan Yuille EgoV 36 234 0 23 Mar 2017