Exploring Visual Relationship for Image Captioning

19 September 2018

Ting Yao

Yingwei Pan

Yehao Li

Tao Mei

ArXiv (abs)PDF HTML

Papers citing "Exploring Visual Relationship for Image Captioning"

50 / 321 papers shown

Title
AutoCaption: Image Captioning with Neural Architecture Search Xinxin Zhu Weining Wang Longteng Guo Jing Liu 93 9 0 16 Dec 2020
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network Jiayi Ji Yunpeng Luo Xiaoshuai Sun Fuhai Chen Gen Luo Yongjian Wu Yue Gao Rongrong Ji ViT 110 177 0 13 Dec 2020
LayoutGMN: Neural Graph Matching for Structural Layout Similarity A. Patil Manyi Li Matthew Fisher Manolis Savva Hao Zhang 68 34 0 11 Dec 2020
Image Captioning with Context-Aware Auxiliary Guidance Zeliang Song Xiaofei Zhou Zhendong Mao Jianlong Tan 88 31 0 10 Dec 2020
TAP: Text-Aware Pre-training for Text-VQA and Text-Caption Zhengyuan Yang Yijuan Lu Jianfeng Wang Xi Yin D. Florêncio Lijuan Wang Cha Zhang Lei Zhang Jiebo Luo VLM 107 144 0 08 Dec 2020
Scan2Cap: Context-aware Dense Captioning in RGB-D Scans Dave Zhenyu Chen A. Gholami Matthias Nießner Angel X. Chang 3DPC 178 176 0 03 Dec 2020
LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering Weixin Liang Fei Niu Aishwarya N. Reganti Govind Thattai Gokhan Tur 73 17 0 21 Nov 2020
Leveraging Activity Recognition to Enable Protective Behavior Detection in Continuous Data Chongyang Wang Yuan Gao Akhil Mathur A. Williams Nicholas D. Lane N. Bianchi-Berthouze 63 37 0 03 Nov 2020
Dual Attention on Pyramid Feature Maps for Image Captioning Litao Yu Jian Zhang Qiang Wu 108 50 0 02 Nov 2020
Multimodal Topic Learning for Video Recommendation Shi Pu Yijiang He Zheng Li Mao Zheng 53 8 0 26 Oct 2020
New Ideas and Trends in Deep Multimodal Content Understanding: A Review Wei Chen Weiping Wang Li Liu M. Lew VLM 169 33 0 16 Oct 2020
Dense Relational Image Captioning via Multi-task Triple-Stream Networks Dong-Jin Kim Tae-Hyun Oh Jinsoo Choi In So Kweon 115 27 0 08 Oct 2020
Teacher-Critical Training Strategies for Image Captioning Yiqing Huang Jiansheng Chen VLM 55 9 0 30 Sep 2020
SceneGen: Generative Contextual Scene Augmentation using Scene Graph Priors Mohammad Keshavarzi Aakash Parikh Xiyu Zhai Melody Mao Luisa Caldas An Yang 75 24 0 25 Sep 2020
Denoising Large-Scale Image Captioning from Alt-text Data using Content Selection Models Khyathi Chandu Piyush Sharma Soravit Changpinyo Ashish V. Thapliyal Radu Soricut DiffM VLM 84 3 0 10 Sep 2020
Explainable Recommender Systems via Resolving Learning Representations Ninghao Liu Yong Ge Li Li Helen Zhou Rui Chen Soo-Hyun Choi 36 24 0 21 Aug 2020
Linguistically-aware Attention for Reducing the Semantic-Gap in Vision-Language Tasks K. Gouthaman Athira M. Nambiar K. Srinivas Anurag Mittal VLM 63 12 0 18 Aug 2020
Retargetable AR: Context-aware Augmented Reality in Indoor Scenes based on 3D Scene Graph Tomu Tahara Takashi Seno Gaku Narita T. Ishikawa 85 48 0 18 Aug 2020
Epipolar-Guided Deep Object Matching for Scene Change Detection Kento Doi Ryuhei Hamaguchi Shun Iwase Rio Yokota Y. Matsuo Ken Sakurada 41 10 0 30 Jul 2020
Spatially Aware Multimodal Transformers for TextVQA Yash Kant Dhruv Batra Peter Anderson Alex Schwing Devi Parikh Jiasen Lu Harsh Agrawal 100 86 0 23 Jul 2020
Comprehensive Image Captioning via Scene Graph Decomposition Yiwu Zhong Liwei Wang Jianshu Chen Dong Yu Yin Li 135 128 0 23 Jul 2020
Fine-Grained Image Captioning with Global-Local Discriminative Objective Jie Wu Tianshui Chen Hefeng Wu Zhi Yang Guangchun Luo Liang Lin 70 59 0 21 Jul 2020
Length-Controllable Image Captioning Chaorui Deng Ning Ding Mingkui Tan Qi Wu VLM 81 57 0 19 Jul 2020
Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation Wenbin Wang Ruiping Wang Shiguang Shan Xilin Chen 3DH 102 53 0 17 Jul 2020
Sparse Graph to Sequence Learning for Vision Conditioned Long Textual Sequence Generation Aditya Mogadala Marius Mosbach Dietrich Klakow VLM 360 0 0 12 Jul 2020
Image Captioning with Compositional Neural Module Networks Junjiao Tian Jean Oh 44 11 0 10 Jul 2020
Loss Function Search for Face Recognition Xiaobo Wang Shuo Wang Cheng Chi Shifeng Zhang Tao Mei CVBM 83 49 0 10 Jul 2020
Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision Peng Wu Jing Liu Yujia Shi Yujia Sun Fang Shao Zhaoyang Wu Zhiwei Yang 101 323 0 09 Jul 2020
Graph Convolutional Networks for Graphs Containing Missing Features Hibiki Taguchi Xin Liu T. Murata GNN 111 93 0 09 Jul 2020
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers Shijie Geng Peng Gao Moitreya Chatterjee Chiori Hori Jonathan Le Roux Yongfeng Zhang Hongsheng Li A. Cherian 101 11 0 08 Jul 2020
Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training Yingwei Pan Yehao Li Jianjie Luo Jun Xu Ting Yao Tao Mei 100 59 0 05 Jul 2020
Graph Optimal Transport for Cross-Domain Alignment Liqun Chen Zhe Gan Yu Cheng Linjie Li Lawrence Carin Jingjing Liu OT 115 152 0 26 Jun 2020
Improving Image Captioning with Better Use of Captions Zhan Shi Xu Zhou Xipeng Qiu Xiao-Dan Zhu 66 128 0 21 Jun 2020
ORD: Object Relationship Discovery for Visual Dialogue Generation Ziwei Wang Zi Huang Yadan Luo Huimin Lu 44 4 0 15 Jun 2020
Rethinking and Improving Natural Language Generation with Layer-Wise Multi-View Decoding Fenglin Liu Xuancheng Ren Guangxiang Zhao Chenyu You Xuewei Ma Xian Wu Xu Sun 77 2 0 16 May 2020
Visual Relationship Detection using Scene Graphs: A Survey Aniket Agarwal Ayush Mangal Vipul GNN 70 21 0 16 May 2020
Character Matters: Video Story Understanding with Character-Aware Relations Shijie Geng Ji Zhang Zuohui Fu Peng Gao Hang Zhang Gerard de Melo 135 11 0 09 May 2020
Image Captioning through Image Transformer Sen He Wentong Liao Hamed R. Tavakoli M. Yang Bodo Rosenhahn N. Pugeault ViT 95 94 0 29 Apr 2020
Transformer Reasoning Network for Image-Text Matching and Retrieval Nicola Messina Fabrizio Falchi Andrea Esuli Giuseppe Amato ViT 68 58 0 20 Apr 2020
Context-Aware Group Captioning via Self-Attention and Contrastive Features Zhuowan Li Quan Hung Tran Long Mai Zhe Lin Alan Yuille VLM 75 44 0 07 Apr 2020
More Grounded Image Captioning by Distilling Image-Text Matching Model Yuanen Zhou Meng Wang Daqing Liu Zhenzhen Hu Hanwang Zhang 90 126 0 01 Apr 2020
X-Linear Attention Networks for Image Captioning Yingwei Pan Ting Yao Yehao Li Tao Mei 131 517 0 31 Mar 2020
Long Short-Term Relation Networks for Video Action Detection Dong Li Ting Yao Zhaofan Qiu Houqiang Li Tao Mei 60 22 0 31 Mar 2020
Learning Compact Reward for Image Captioning Nannan Li Zhenzhong Chen 63 3 0 24 Mar 2020
AVR: Attention based Salient Visual Relationship Detection Jianming Lv Qin-zhe Xiao Jiajie Zhong 54 12 0 16 Mar 2020
Better Set Representations For Relational Reasoning Qian Huang Horace He Ashutosh Kumar Singh Yan Zhang Ser-Nam Lim Austin R. Benson NAI OCL GNN 98 1 0 09 Mar 2020
Deconfounded Image Captioning: A Causal Retrospect Xu Yang Hanwang Zhang Jianfei Cai CML 72 126 0 09 Mar 2020
Better Captioning with Sequence-Level Exploration Jia Chen Qin Jin 56 12 0 08 Mar 2020
Captioning Images with Novel Objects via Online Vocabulary Expansion Mikihiro Tanaka Tatsuya Harada 3DV 70 2 0 06 Mar 2020
Show, Edit and Tell: A Framework for Editing Image Captions Fawaz Sammani Luke Melas-Kyriazi KELM DiffM 108 59 0 06 Mar 2020