Semi-Autoregressive Transformer for Image Captioning

17 June 2021

Yuanen Zhou

Yong Zhang

Zhenzhen Hu

Meng Wang

VLM

ArXiv PDF HTML

Papers citing "Semi-Autoregressive Transformer for Image Captioning"

35 / 35 papers shown

Title
FlowTok: Flowing Seamlessly Across Text and Image Tokens Ju He Qihang Yu Qihao Liu Liang-Chieh Chen 87 1 0 13 Mar 2025
ViTOC: Vision Transformer and Object-aware Captioner Feiyang Huang 63 0 0 09 Nov 2024
Causal Attention for Vision-Language Tasks Xu Yang Hanwang Zhang Guojun Qi Jianfei Cai CML 53 152 0 05 Mar 2021
Learning to Recover from Multi-Modality Errors for Non-Autoregressive Neural Machine Translation Qiu Ran Yankai Lin Peng Li Jie Zhou 30 39 0 09 Jun 2020
Non-Autoregressive Image Captioning with Counterfactuals-Critical Multi-Agent Learning Longteng Guo Jing Liu Xinxin Zhu Xingjian He Jie Jiang Hanqing Lu BDL 43 56 0 10 May 2020
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu ... Houdong Hu Li Dong Furu Wei Yejin Choi Jianfeng Gao VLM 70 1,927 0 13 Apr 2020
More Grounded Image Captioning by Distilling Image-Text Matching Model Yuanen Zhou Meng Wang Daqing Liu Zhenzhen Hu Hanwang Zhang 41 126 0 01 Apr 2020
X-Linear Attention Networks for Image Captioning Yingwei Pan Ting Yao Yehao Li Tao Mei 72 509 0 31 Mar 2020
A Better Variant of Self-Critical Sequence Training Ruotian Luo BDL 36 37 0 22 Mar 2020
In Defense of Grid Features for Visual Question Answering Huaizu Jiang Ishan Misra Marcus Rohrbach Erik Learned-Miller Xinlei Chen OOD ObjD 39 320 0 10 Jan 2020
Meshed-Memory Transformer for Image Captioning Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara 37 872 0 17 Dec 2019
Fast Image Caption Generation with Position Alignment Z. Fei 40 37 0 13 Dec 2019
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 320 930 0 24 Sep 2019
Attention on Attention for Image Captioning Lun Huang Wenmin Wang Jie Chen Xiao-Yong Wei 42 828 0 19 Aug 2019
Masked Non-Autoregressive Image Captioning Junlong Gao Xi Meng Shiqi Wang Xia Li Shanshe Wang Siwei Ma Wen Gao 36 36 0 03 Jun 2019
Non-Autoregressive Machine Translation with Auxiliary Regularization Yiren Wang Fei Tian Di He Tao Qin ChengXiang Zhai Tie-Yan Liu 54 158 0 22 Feb 2019
Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input Junliang Guo Xu Tan Di He Tao Qin Linli Xu Tie-Yan Liu 33 125 0 23 Dec 2018
Auto-Encoding Scene Graphs for Image Captioning Xu Yang Kaihua Tang Hanwang Zhang Jianfei Cai 120 698 0 06 Dec 2018
Exploring Visual Relationship for Image Captioning Ting Yao Yingwei Pan Yehao Li Tao Mei 65 830 0 19 Sep 2018
Semi-Autoregressive Neural Machine Translation Chunqi Wang Ji Zhang Haiqing Chen 36 88 0 26 Aug 2018
Deterministic Non-Autoregressive Neural Sequence Modeling by Iterative Refinement Jason D. Lee Elman Mansimov Kyunghyun Cho DiffM BDL 56 455 0 19 Feb 2018
Non-Autoregressive Neural Machine Translation Jiatao Gu James Bradbury Caiming Xiong Victor O.K. Li R. Socher 81 794 0 07 Nov 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 100 4,201 0 25 Jul 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 430 129,831 0 12 Jun 2017
An Empirical Study of Language CNN for Image Captioning Jiuxiang Gu G. Wang Jianfei Cai Tsuhan Chen 51 132 0 21 Dec 2016
Self-critical Sequence Training for Image Captioning Steven J. Rennie E. Marcheret Youssef Mroueh Jerret Ross Vaibhava Goel 96 1,880 0 02 Dec 2016
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 239 10,412 0 21 Jul 2016
Sequence-Level Knowledge Distillation Yoon Kim Alexander M. Rush 84 1,109 0 25 Jun 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 1.3K 192,638 0 10 Dec 2015
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren Kaiming He Ross B. Girshick Jian Sun AIMat ObjD 404 61,900 0 04 Jun 2015
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 149 2,461 0 01 Apr 2015
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Ke Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhutdinov R. Zemel Yoshua Bengio DiffM 279 10,034 0 10 Feb 2015
Deep Visual-Semantic Alignments for Generating Image Descriptions A. Karpathy Li Fei-Fei 58 5,569 0 07 Dec 2014
CIDEr: Consensus-based Image Description Evaluation Ramakrishna Vedantam C. L. Zitnick Devi Parikh 217 4,451 0 20 Nov 2014
Show and Tell: A Neural Image Caption Generator Oriol Vinyals Alexander Toshev Samy Bengio D. Erhan 3DV 186 6,009 0 17 Nov 2014