v1v2 (latest)

Self-Annotated Training for Controllable Image Captioning

16 October 2021

Papers citing "Self-Annotated Training for Controllable Image Captioning"

33 / 33 papers shown

Title
Human-like Controllable Image Captioning with Verb-specific Semantic Roles Long Chen Zhihong Jiang Jun Xiao Wei Liu 88 76 0 22 Mar 2021
Dual-Level Collaborative Transformer for Image Captioning Yunpeng Luo Jiayi Ji Xiaoshuai Sun Liujuan Cao Yongjian Wu Feiyue Huang Chia-Wen Lin Rongrong Ji ViT 61 279 0 16 Jan 2021
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network Jiayi Ji Yunpeng Luo Xiaoshuai Sun Fuhai Chen Gen Luo Yongjian Wu Yue Gao Rongrong Ji ViT 82 173 0 13 Dec 2020
Image Captioning with Context-Aware Auxiliary Guidance Zeliang Song Xiaofei Zhou Zhendong Mao Jianlong Tan 70 31 0 10 Dec 2020
Length-Controllable Image Captioning Chaorui Deng Ning Ding Mingkui Tan Qi Wu VLM 71 57 0 19 Jul 2020
Improving Image Captioning with Better Use of Captions Zhan Shi Xu Zhou Xipeng Qiu Xiao-Dan Zhu 52 125 0 21 Jun 2020
Controlling Length in Image Captioning Ruotian Luo G. Shakhnarovich VLM 92 3 0 29 May 2020
X-Linear Attention Networks for Image Captioning Yingwei Pan Ting Yao Yehao Li Tao Mei 111 513 0 31 Mar 2020
Normalized and Geometry-Aware Self-Attention Network for Image Captioning Longteng Guo Jing Liu Xinxin Zhu Peng Yao Shichen Lu Hanqing Lu ViT 177 191 0 19 Mar 2020
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs Shizhe Chen Qin Jin Peng Wang Qi Wu DiffM 108 217 0 01 Mar 2020
Meshed-Memory Transformer for Image Captioning Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara 75 882 0 17 Dec 2019
Exploring Overall Contextual Information for Image Captioning in Human-Like Cognitive Style Hongwei Ge Zehang Yan Kai Zhang Mingde Zhao Liang Sun 52 25 0 15 Oct 2019
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 352 941 0 24 Sep 2019
Attention on Attention for Image Captioning Lun Huang Wenmin Wang Jie Chen Xiao-Yong Wei 65 832 0 19 Aug 2019
Self-critical n-step Training for Image Captioning Junlong Gao Shiqi Wang Shanshe Wang Siwei Ma Wen Gao 70 55 0 15 Apr 2019
Auto-Encoding Scene Graphs for Image Captioning Xu Yang Kaihua Tang Hanwang Zhang Jianfei Cai 154 699 0 06 Dec 2018
Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions Marcella Cornia Lorenzo Baraldi Rita Cucchiara DiffM 70 175 0 26 Nov 2018
Intention Oriented Image Captions with Guiding Objects Yue Zheng Yali Li Shengjin Wang 51 55 0 19 Nov 2018
Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech Aditya Deshpande J. Aneja Liwei Wang Alex Schwing David A. Forsyth 68 148 0 31 May 2018
Improving Image Captioning with Conditional Generative Adversarial Nets Chen Chen Shuai Mu Wanpeng Xiao Zexiong Ye Liesi Wu Qi Ju GAN 71 90 0 18 May 2018
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 121 4,216 0 25 Jul 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 701 131,652 0 12 Jun 2017
Towards Diverse and Natural Image Descriptions via a Conditional GAN Bo Dai Sanja Fidler R. Urtasun Dahua Lin GAN 60 453 0 17 Mar 2017
Self-critical Sequence Training for Image Captioning Steven J. Rennie E. Marcheret Youssef Mroueh Jerret Ross Vaibhava Goel 107 1,887 0 02 Dec 2016
SPICE: Semantic Propositional Image Caption Evaluation Peter Anderson Basura Fernando Mark Johnson Stephen Gould EGVM 102 1,914 0 29 Jul 2016
Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Ranjay Krishna Yuke Zhu Oliver Groth Justin Johnson Kenji Hata ... Yannis Kalantidis Li Li David A. Shamma Michael S. Bernstein Fei-Fei Li 217 5,747 0 23 Feb 2016
Sequence Level Training with Recurrent Neural Networks MarcÁurelio Ranzato S. Chopra Michael Auli Wojciech Zaremba 102 1,615 0 20 Nov 2015
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren Kaiming He Ross B. Girshick Jian Sun AIMat ObjD 520 62,294 0 04 Jun 2015
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Ke Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhutdinov R. Zemel Yoshua Bengio DiffM 346 10,070 0 10 Feb 2015
Deep Visual-Semantic Alignments for Generating Image Descriptions A. Karpathy Li Fei-Fei 127 5,585 0 07 Dec 2014
CIDEr: Consensus-based Image Description Evaluation Ramakrishna Vedantam C. L. Zitnick Devi Parikh 292 4,488 0 20 Nov 2014
Show and Tell: A Neural Image Caption Generator Oriol Vinyals Alexander Toshev Samy Bengio D. Erhan 3DV 243 6,029 0 17 Nov 2014
Microsoft COCO: Common Objects in Context Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 413 43,667 0 01 May 2014