Dual-Level Collaborative Transformer for Image Captioning

v1v2 (latest)

Dual-Level Collaborative Transformer for Image Captioning

16 January 2021

Jiayi Ji

Liujuan Cao

Yongjian Wu

ArXiv (abs)PDF HTML Github (200★)

Papers citing "Dual-Level Collaborative Transformer for Image Captioning"

19 / 19 papers shown

Title
Normalized and Geometry-Aware Self-Attention Network for Image Captioning Longteng Guo Jing Liu Xinxin Zhu Peng Yao Shichen Lu Hanqing Lu ViT 179 191 0 19 Mar 2020
Show, Recall, and Tell: Image Captioning with Recall Mechanism Li Wang Zechen Bai Yonghua Zhang Hongtao Lu 56 67 0 15 Jan 2020
In Defense of Grid Features for Visual Question Answering Huaizu Jiang Ishan Misra Marcus Rohrbach Erik Learned-Miller Xinlei Chen OOD ObjD 55 320 0 10 Jan 2020
Meshed-Memory Transformer for Image Captioning Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara 75 882 0 17 Dec 2019
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 352 941 0 24 Sep 2019
Hierarchy Parsing for Image Captioning Ting Yao Yingwei Pan Yehao Li Tao Mei VLM 58 165 0 09 Sep 2019
Attention on Attention for Image Captioning Lun Huang Wenmin Wang Jie Chen Xiao-Yong Wei 65 832 0 19 Aug 2019
Image Captioning: Transforming Objects into Words Simão Herdade Armin Kappeler K. Boakye Joao Soares ViT 116 470 0 14 Jun 2019
Auto-Encoding Scene Graphs for Image Captioning Xu Yang Kaihua Tang Hanwang Zhang Jianfei Cai 154 699 0 06 Dec 2018
Exploring Visual Relationship for Image Captioning Ting Yao Yingwei Pan Yehao Li Tao Mei 76 834 0 19 Sep 2018
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 121 4,216 0 25 Jul 2017
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning Jiasen Lu Caiming Xiong Devi Parikh R. Socher 130 1,452 0 06 Dec 2016
Self-critical Sequence Training for Image Captioning Steven J. Rennie E. Marcheret Youssef Mroueh Jerret Ross Vaibhava Goel 107 1,887 0 02 Dec 2016
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Zhuowen Tu Kaiming He 517 10,330 0 16 Nov 2016
SPICE: Semantic Propositional Image Caption Evaluation Peter Anderson Basura Fernando Mark Johnson Stephen Gould EGVM 102 1,914 0 29 Jul 2016
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Ke Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhutdinov R. Zemel Yoshua Bengio DiffM 346 10,070 0 10 Feb 2015
Deep Visual-Semantic Alignments for Generating Image Descriptions A. Karpathy Li Fei-Fei 127 5,585 0 07 Dec 2014
CIDEr: Consensus-based Image Description Evaluation Ramakrishna Vedantam C. L. Zitnick Devi Parikh 292 4,488 0 20 Nov 2014
Show and Tell: A Neural Image Caption Generator Oriol Vinyals Alexander Toshev Samy Bengio D. Erhan 3DV 243 6,029 0 17 Nov 2014