Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions

26 November 2018

Lorenzo Baraldi

Papers citing "Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions"

30 / 30 papers shown

Title
C-CLIP: Contrastive Image-Text Encoders to Close the Descriptive-Commentative Gap William Theisen Walter J. Scheirer CLIP VLM 42 2 0 06 Sep 2023
Mobile Foundation Model as Firmware Jinliang Yuan Chenchen Yang Dongqi Cai Shihe Wang Xin Yuan ... Di Zhang Hanzi Mei Xianqing Jia Shangguang Wang Mengwei Xu 40 19 0 28 Aug 2023
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning Manuele Barraco Sara Sarto Marcella Cornia Lorenzo Baraldi Rita Cucchiara VLM 60 19 0 23 Aug 2023
GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-training Xi Deng Han Shi Runhu Huang Changlin Li Hang Xu Jianhua Han James T. Kwok Shen Zhao Wei Zhang Xiaodan Liang CLIP VLM 29 3 0 22 Aug 2023
ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing Zequn Zeng Hao Zhang Zhengjue Wang Ruiying Lu Dongsheng Wang Bo Chen BDL DiffM 24 33 0 04 Mar 2023
Towards Local Visual Modeling for Image Captioning Yiwei Ma Jiayi Ji Xiaoshuai Sun Yiyi Zhou Rongrong Ji ViT 21 71 0 13 Feb 2023
An Image captioning algorithm based on the Hybrid Deep Learning Technique (CNN+GRU) Rana Adnan Ahmad Muhammad Azhar Hina Sattar 26 10 0 06 Jan 2023
Controllable Image Captioning via Prompting Ning Wang Jiahao Xie Jihao Wu Mingbo Jia Linlin Li 22 23 0 04 Dec 2022
Overcoming Catastrophic Forgetting by XAI Giang Nguyen 18 0 0 25 Nov 2022
Visual Semantic Parsing: From Images to Abstract Meaning Representation M. A. Abdelsalam Zhan Shi Federico Fancellu Kalliopi Basioti Dhaivat Bhatt Vladimir Pavlovic Afsaneh Fazly GNN 42 4 0 26 Oct 2022
Prophet Attention: Predicting Attention with Future Attention for Image Captioning Fenglin Liu Xuancheng Ren Xian Wu Wei Fan Yuexian Zou Xu Sun 24 46 0 19 Oct 2022
Word to Sentence Visual Semantic Similarity for Caption Generation: Lessons Learned Ahmed Sabir 19 0 0 26 Sep 2022
Belief Revision based Caption Re-ranker with Visual Semantic Information Ahmed Sabir Francesc Moreno-Noguer Pranava Madhyastha Lluís Padró BDL 32 2 0 16 Sep 2022
Multi-Modal Knowledge Graph Construction and Application: A Survey Xiangru Zhu Zhixu Li Xiaodan Wang Xueyao Jiang Penglei Sun Xuwu Wang Yanghua Xiao N. Yuan 33 154 0 11 Feb 2022
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 30 89 0 31 Jan 2022
Object-Centric Unsupervised Image Captioning Zihang Meng David Yang Xuefei Cao Ashish Shah Ser-Nam Lim OCL VLM 19 11 0 02 Dec 2021
Neural Attention for Image Captioning: Review of Outstanding Methods Zanyar Zohourianshahzadi Jugal Kalita VLM 35 45 0 29 Nov 2021
Self-Annotated Training for Controllable Image Captioning Zhangzi Zhu Tianlei Wang Hong Qu 27 2 0 16 Oct 2021
Dual Graph Convolutional Networks with Transformer and Curriculum Learning for Image Captioning Xinzhi Dong Chengjiang Long Wenju Xu Chunxia Xiao ViT 79 66 0 05 Aug 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 67 255 0 14 Jul 2021
Towards Accurate Text-based Image Captioning with Content Diversity Exploration Guanghui Xu Shuaicheng Niu Mingkui Tan Yucheng Luo Qing Du Qi Wu DiffM 22 56 0 23 Apr 2021
Human-like Controllable Image Captioning with Verb-specific Semantic Roles Long Chen Zhihong Jiang Jun Xiao Wei Liu 30 74 0 22 Mar 2021
Macroscopic Control of Text Generation for Image Captioning Zhangzi Zhu Tianlei Wang Hong Qu 29 4 0 20 Jan 2021
Spatial Attention as an Interface for Image Captioning Models P. Sadler 28 0 0 29 Sep 2020
Length-Controllable Image Captioning Chaorui Deng Ning Ding Mingkui Tan Qi Wu VLM 33 56 0 19 Jul 2020
Clue: Cross-modal Coherence Modeling for Caption Generation Malihe Alikhani Piyush Sharma Shengjie Li Radu Soricut Matthew Stone 38 56 0 02 May 2020
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs Shizhe Chen Qin Jin Peng Wang Qi Wu DiffM 36 215 0 01 Mar 2020
Meshed-Memory Transformer for Image Captioning Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara 14 868 0 17 Dec 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 25 132 0 22 Jul 2019
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 200 434 0 27 Mar 2018