Exploring Visual Relationship for Image Captioning

19 September 2018

Ting Yao

Yingwei Pan

Yehao Li

Tao Mei

ArXiv (abs)PDF HTML

Papers citing "Exploring Visual Relationship for Image Captioning"

50 / 321 papers shown

Title
Guiding Attention using Partial-Order Relationships for Image Captioning Murad Popattia Muhammad Rafi Rizwan Qureshi Shah Nawaz 52 5 0 15 Apr 2022
Image Captioning In the Transformer Age Yangliu Xu Li Li Haiyang Xu Songfang Huang Fei Huang Jianfei Cai ViT 59 6 0 15 Apr 2022
MHMS: Multimodal Hierarchical Multimedia Summarization Jielin Qiu Jiacheng Zhu Mengdi Xu Franck Dernoncourt Trung Bui Zhaowen Wang Yue Liu Ding Zhao Hailin Jin 95 12 0 07 Apr 2022
Rethinking Video Salient Object Ranking Jiaying Lin Huankang Guan Rynson W. H. Lau 57 5 0 31 Mar 2022
End-to-End Transformer Based Model for Image Captioning Yiyu Wang Jungang Xu Yingfei Sun VLM ViT 64 125 0 29 Mar 2022
MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes Yang Jiao Shaoxiang Chen Zequn Jie Wenke Huang Lin Ma Yu-Gang Jiang 3DPC 115 48 0 10 Mar 2022
A Deep Neural Framework for Image Caption Generation Using GRU-Based Attention Mechanism Rashid Khan Shujah Islam Khadija Kanwal Mansoor Iqbal Md. Imran Hossain Z. Ye 3DV 30 18 0 03 Mar 2022
CaMEL: Mean Teacher Learning for Image Captioning Manuele Barraco Matteo Stefanini Marcella Cornia S. Cascianelli Lorenzo Baraldi Rita Cucchiara ViT VLM 78 30 0 21 Feb 2022
Hyper-relationship Learning Network for Scene Graph Generation Yibing Zhan Zhi Chen Jun Yu Baosheng Yu Dacheng Tao Yong Luo 3DH 86 3 0 15 Feb 2022
Detecting Human-Object Interactions with Object-Guided Cross-Modal Calibrated Semantics Hangjie Yuan Mang Wang Dong Ni Liangpeng Xu 89 40 0 01 Feb 2022
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 130 101 0 31 Jan 2022
A Frustratingly Simple Approach for End-to-End Image Captioning Ziyang Luo Yadong Xi Rongsheng Zhang Jing Ma VLM MLLM 70 16 0 30 Jan 2022
Representing Videos as Discriminative Sub-graphs for Action Recognition Dong Li Zhaofan Qiu Yingwei Pan Ting Yao Houqiang Li Tao Mei 99 26 0 11 Jan 2022
Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training Yehao Li Jiahao Fan Yingwei Pan Ting Yao Weiyao Lin Tao Mei MLLM ObjD 81 19 0 11 Jan 2022
Smart Director: An Event-Driven Directing System for Live Broadcasting Yingwei Pan Yue Chen Qian Bao Ning Zhang Ting Yao Jingen Liu Tao Mei VGen 87 20 0 11 Jan 2022
Prior Knowledge Enhances Radiology Report Generation Song Wang Liyan Tang Mingquan Lin George Shih Ying Ding Yifan Peng MedIm 58 24 0 11 Jan 2022
Compact Bidirectional Transformer for Image Captioning Yuanen Zhou Zhenzhen Hu Daqing Liu Huixia Ben Meng Wang VLM 67 16 0 06 Jan 2022
Incremental Object Grounding Using Scene Graphs J. Yi Yoonwoo Kim Sonia Chernova LM&Ro 91 9 0 06 Jan 2022
Graph Neural Networks: a bibliometrics overview Abdalsamad Keramatfar Mohadeseh Rafiee Hossein Amirkhani GNN AI4CE 74 25 0 03 Jan 2022
A Survey of Natural Language Generation Chenhe Dong Hai-Tao Zheng Haifan Gong Mengzhao Chen Junxin Li Ying Shen Min Yang 3DV 79 45 0 22 Dec 2021
SkipNode: On Alleviating Performance Degradation for Deep Graph Convolutional Networks Weigang Lu Yibing Zhan Binbin Lin Ziyu Guan Liu Liu Baosheng Yu Wei Zhao Yaming Yang Dacheng Tao GNN 70 15 0 22 Dec 2021
Exploiting Long-Term Dependencies for Generating Dynamic Scene Graphs Shengyu Feng Subarna Tripathi Hesham Mostafa Marcel Nassar Somdeb Majumdar 94 26 0 18 Dec 2021
CORE-Text: Improving Scene Text Detection with Contrastive Relational Reasoning Jingyang Lin Yingwei Pan Rongfeng Lai Xuehang Yang Hongyang Chao Ting Yao 93 5 0 14 Dec 2021
MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and Unpaired Text-based Image Captioning Wenqiao Zhang Haochen Shi Jiannan Guo Shengyu Zhang Qingpeng Cai Juncheng Li Sihui Luo Yueting Zhuang DiffM 100 46 0 13 Dec 2021
Injecting Semantic Concepts into End-to-End Image Captioning Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lin Liang Zhe Gan Lijuan Wang Yezhou Yang Zicheng Liu ViT VLM 84 91 0 09 Dec 2021
UNITER-Based Situated Coreference Resolution with Rich Multimodal Input Yichen Huang Yuchen Wang Yik-Cheung Tam 62 8 0 07 Dec 2021
Consensus Graph Representation Learning for Better Grounded Image Captioning Wenqiao Zhang Haochen Shi Siliang Tang Jun Xiao Qiang Yu Yueting Zhuang 81 56 0 02 Dec 2021
Neural Attention for Image Captioning: Review of Outstanding Methods Zanyar Zohourianshahzadi Jugal Kalita VLM 86 47 0 29 Nov 2021
LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video Question Answering Jingjing Jiang Zi-yi Liu N. Zheng 80 14 0 29 Nov 2021
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf VLM 122 197 0 29 Nov 2021
Two-stage Rule-induction Visual Reasoning on RPMs with an Application to Video Prediction Wentao He Jianfeng Ren Ruibin Bai Xudong Jiang LRM 63 5 0 24 Nov 2021
Scaling Up Vision-Language Pre-training for Image Captioning Xiaowei Hu Zhe Gan Jianfeng Wang Zhengyuan Yang Zicheng Liu Yumao Lu Lijuan Wang MLLM VLM 170 249 0 24 Nov 2021
ClipCap: CLIP Prefix for Image Captioning Ron Mokady Amir Hertz Amit H. Bermano CLIP VLM 81 682 0 18 Nov 2021
CSI: Contrastive Data Stratification for Interaction Prediction and its Application to Compound-Protein Interaction Prediction A. Kalia Dilip Krishnan Soha Hassoun Tufts University 44 2 0 18 Nov 2021
How Important is Importance Sampling for Deep Budgeted Training? Eric Arazo Diego Ortego Paul Albert Noel E. O'Connor Kevin McGuinness 119 8 0 27 Oct 2021
Unifying Multimodal Transformer for Bi-directional Image and Text Generation Yupan Huang Hongwei Xue Bei Liu Yutong Lu 79 59 0 19 Oct 2021
Topic Scene Graph Generation by Attention Distillation from Caption Wenbin Wang R. Wang X. Chen DiffM 92 14 0 12 Oct 2021
Semi-Autoregressive Image Captioning Xu Yan Zhengcong Fei Zekang Li Shuhui Wang Qingming Huang Qi Tian 91 25 0 11 Oct 2021
SDA-GAN: Unsupervised Image Translation Using Spectral Domain Attention-Guided Generative Adversarial Network Qizhou Wang M. Makarenko 62 0 0 06 Oct 2021
Coarse-to-Fine Reasoning for Visual Question Answering Binh X. Nguyen Tuong Khanh Long Do Huy Tran Erman Tjiputra Quang-Dieu Tran A. Nguyen NAI 134 40 0 06 Oct 2021
Geometry Attention Transformer with Position-aware LSTMs for Image Captioning Chi-Yin Wang Yulin Shen Luping Ji ViT 106 53 0 01 Oct 2021
Geometry-Entangled Visual Semantic Transformer for Image Captioning Ling Cheng Wei Wei Feida Zhu Yong Liu Chunyan Miao ViT 45 3 0 29 Sep 2021
Scene Graph Generation for Better Image Captioning? Maximilian Mozes Martin Schmitt Vladimir Golkov Hinrich Schütze Daniel Cremers GNN 53 3 0 23 Sep 2021
GoG: Relation-aware Graph-over-Graph Network for Visual Dialog Feilong Chen Xiuyi Chen Fandong Meng Peng Li Jie Zhou 141 35 0 17 Sep 2021
Cross Modification Attention Based Deliberation Model for Image Captioning Zheng Lian Yanan Zhang Haichang Li Rui Wang Xiaohui Hu 64 5 0 17 Sep 2021
A Survey on Temporal Sentence Grounding in Videos Xiaohan Lan Yitian Yuan Xin Eric Wang Zhi Wang Wenwu Zhu 123 47 0 16 Sep 2021
Label-Attention Transformer with Geometrically Coherent Objects for Image Captioning Shikha Dubey Farrukh Olimov M. Rafique Joonmo Kim M. Jeon ViT 82 42 0 16 Sep 2021
ACP++: Action Co-occurrence Priors for Human-Object Interaction Detection Dong-Jin Kim Xiao Sun Jinsoo Choi Stephen Lin In So Kweon 79 22 0 09 Sep 2021
Learning to Generate Scene Graph from Natural Language Supervision Yiwu Zhong Jing Shi Jianwei Yang Chenliang Xu Yin Li SSL 93 79 0 06 Sep 2021
LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation Mohammad Abuzar Shaikh Zhanghexuan Ji Dana Moukheiber Yan Shen S. Srihari Mingchen Gao VLM 44 1 0 04 Sep 2021