Exploring Visual Relationship for Image Captioning

19 September 2018

Ting Yao

Yingwei Pan

Yehao Li

Tao Mei

ArXiv (abs)PDF HTML

Papers citing "Exploring Visual Relationship for Image Captioning"

50 / 321 papers shown

Title
XGPT: Cross-modal Generative Pre-Training for Image Captioning Qiaolin Xia Haoyang Huang Nan Duan Dongdong Zhang Lei Ji Zhifang Sui Edward Cui Taroon Bharti Xin Liu Ming Zhou MLLM VLM 103 76 0 03 Mar 2020
MonoPair: Monocular 3D Object Detection Using Pairwise Spatial Relationships Yongjiang Chen L. Tai Kai-Lung Sun Mingyang Li 3DPC 65 265 0 01 Mar 2020
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs Shizhe Chen Qin Jin Peng Wang Qi Wu DiffM 131 219 0 01 Mar 2020
Exploring and Distilling Cross-Modal Information for Image Captioning Fenglin Liu Xuancheng Ren Yuanxin Liu Kai Lei Xu Sun ViT 73 52 0 28 Feb 2020
Unbiased Scene Graph Generation from Biased Training Kaihua Tang Yulei Niu Jianqiang Huang Jiaxin Shi Hanwang Zhang CML 85 703 0 27 Feb 2020
Object Relational Graph with Teacher-Recommended Learning for Video Captioning Ziqi Zhang Yaya Shi Chunfen Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha VLM 93 275 0 26 Feb 2020
When Radiology Report Generation Meets Knowledge Graph Yixiao Zhang Xiaosong Wang Ziyue Xu Qihang Yu Alan Yuille Daguang Xu MedIm 90 304 0 19 Feb 2020
aiTPR: Attribute Interaction-Tensor Product Representation for Image Caption C. Sur 33 8 0 27 Jan 2020
Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences Zhu Zhang Zhou Zhao Yang Zhao Qi. Wang Huasheng Liu Lianli Gao 99 118 0 19 Jan 2020
NODIS: Neural Ordinary Differential Scene Understanding Cong Yuren H. Ackermann Wentong Liao M. Yang Bodo Rosenhahn 102 16 0 14 Jan 2020
Bridging Knowledge Graphs to Generate Scene Graphs Alireza Zareian Svebor Karaman Shih-Fu Chang 100 212 0 07 Jan 2020
Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning Models Jiamei Sun Sebastian Lapuschkin Wojciech Samek Alexander Binder FAtt 85 30 0 04 Jan 2020
Vision and Language: from Visual Perception to Content Creation Tao Mei Wei Zhang Ting Yao VLM 68 8 0 26 Dec 2019
Meshed-Memory Transformer for Image Captioning Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara 110 888 0 17 Dec 2019
Learning Canonical Representations for Scene Graph to Image Generation Roei Herzig Amir Bar Huijuan Xu Gal Chechik Trevor Darrell Amir Globerson GNN OCL 107 109 0 16 Dec 2019
Fast Image Caption Generation with Position Alignment Z. Fei 77 38 0 13 Dec 2019
Better Understanding Hierarchical Visual Relationship for Image Caption Z. Fei 36 0 0 04 Dec 2019
Two Causal Principles for Improving Visual Dialog Jiaxin Qi Yulei Niu Jianqiang Huang Hanwang Zhang CML 107 148 0 24 Nov 2019
Injecting Prior Knowledge into Image Caption Generation A. Goel Basura Fernando Thanh-Son Nguyen Hakan Bilen 31 0 0 22 Nov 2019
Hidden State Guidance: Improving Image Captioning using An Image Conditioned Autoencoder Jialin Wu Raymond J. Mooney 46 0 0 31 Oct 2019
Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval Sijin Wang Ruiping Wang Ziwei Yao Shiguang Shan Xilin Chen 3DV 88 213 0 11 Oct 2019
SMArT: Training Shallow Memory-aware Transformers for Robotic Explainability Marcella Cornia Lorenzo Baraldi Rita Cucchiara 162 29 0 07 Oct 2019
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 361 947 0 24 Sep 2019
Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators Kuang-Huei Lee Hamid Palangi Xi Chen Houdong Hu Jianfeng Gao VLM 67 37 0 22 Sep 2019
Adaptively Aligned Image Captioning via Adaptive Attention Time Lun Huang Wenmin Wang Yaxian Xia Jie Chen 74 63 0 19 Sep 2019
Hierarchy Parsing for Image Captioning Ting Yao Yingwei Pan Yehao Li Tao Mei VLM 85 166 0 09 Sep 2019
Visual Semantic Reasoning for Image-Text Matching Kunpeng Li Yulun Zhang Keqin Li Yuanyuan Li Y. Fu VLM 115 508 0 06 Sep 2019
Relationship-Aware Spatial Perception Fusion for Realistic Scene Layout Generation Hongdong Zheng Yalong Bai Wei Zhang Tao Mei 28 1 0 02 Sep 2019
A Semantics-Assisted Video Captioning Model Trained with Scheduled Sampling Haoran Chen Ke Lin A. Maye Jianmin Li Xiaoling Hu 52 48 0 31 Aug 2019
Reflective Decoding Network for Image Captioning Lei Ke Wenjie Pei Ruiyu Li Xiaoyong Shen Yu-Wing Tai ObjD 60 94 0 30 Aug 2019
Relation Distillation Networks for Video Object Detection Jiajun Deng Yingwei Pan Ting Yao Wen-gang Zhou Houqiang Li Tao Mei ObjD 165 192 0 26 Aug 2019
Towards Unsupervised Image Captioning with Shared Multimodal Embeddings Iro Laina Christian Rupprecht Nassir Navab SSL 71 103 0 25 Aug 2019
Attention on Attention for Image Captioning Lun Huang Wenmin Wang Jie Chen Xiao-Yong Wei 87 835 0 19 Aug 2019
Multi-modality Latent Interaction Network for Visual Question Answering Peng Gao Haoxuan You Zhanpeng Zhang Xiaogang Wang Hongsheng Li 69 82 0 10 Aug 2019
Continuous Graph Flow Zhiwei Deng Megha Nawhal Lili Meng Greg Mori 56 3 0 07 Aug 2019
Aligning Linguistic Words and Visual Semantic Units for Image Captioning Longteng Guo Jing Liu Jinhui Tang Jiangwei Li W. Luo Hanqing Lu 83 102 0 06 Aug 2019
Convolutional Auto-encoding of Sentence Topics for Image Paragraph Generation Jing Wang Yingwei Pan Ting Yao Jinhui Tang Tao Mei VLM BDL DiffM 56 36 0 01 Aug 2019
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering Cheng Zhang Wei-Lun Chao D. Xuan 77 51 0 28 Jul 2019
Graph Neural Lasso for Dynamic Network Regression Yixin Chen Lin Meng Jiawei Zhang AI4TS 51 5 0 25 Jul 2019
Watch It Twice: Video Captioning with a Refocused Video Encoder Xiangxi Shi Jianfei Cai Shafiq Joty Jiuxiang Gu 70 28 0 21 Jul 2019
A Survey of Deep Learning-based Object Detection L. Jiao Fan Zhang Fang Liu Shuyuan Yang Lingling Li Zhixi Feng Rong Qu ObjD 131 973 0 11 Jul 2019
Trimmed Action Recognition, Dense-Captioning Events in Videos, and Spatio-temporal Action Localization with Focus on ActivityNet Challenge 2019 Zhaofan Qiu Dong Li Yehao Li Qi Cai Yingwei Pan Ting Yao 43 8 0 14 Jun 2019
Image Captioning: Transforming Objects into Words Simão Herdade Armin Kappeler K. Boakye Joao Soares ViT 145 476 0 14 Jun 2019
Relationship-Embedded Representation Learning for Grounding Referring Expressions Sibei Yang Guanbin Li Yizhou Yu ObjD 93 55 0 11 Jun 2019
Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos Zhu Zhang Zhijie Lin Zhou Zhao Zhenxin Xiao 65 213 0 06 Jun 2019
Relational Reasoning using Prior Knowledge for Visual Captioning Jingyi Hou Xinxiao Wu Yayun Qi Wentian Zhao Jiebo Luo Yunde Jia 85 14 0 04 Jun 2019
Image Captioning based on Deep Learning Methods: A Survey Yiyu Wang Jungang Xu Yingfei Sun Xianpei Han VLM 31 7 0 20 May 2019
Multimodal Transformer with Multi-View Visual Representation for Image Captioning Jun-chen Yu Jing Li Zhou Yu Qingming Huang ViT 65 387 0 20 May 2019
Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations Fenglin Liu Yuanxin Liu Xuancheng Ren Xiaodong He Xu Sun VLM 71 82 0 15 May 2019
Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning Jingwen Chen Yingwei Pan Yehao Li Ting Yao Hongyang Chao Tao Mei 81 103 0 03 May 2019