Towards Unsupervised Image Captioning with Shared Multimodal Embeddings

25 August 2019

Iro Laina

Christian Rupprecht

Nassir Navab

SSL

ArXiv PDF HTML

Papers citing "Towards Unsupervised Image Captioning with Shared Multimodal Embeddings"

23 / 23 papers shown

Title
MedRAT: Unpaired Medical Report Generation via Auxiliary Tasks Elad Hirsch Gefen Dawidowicz A. Tal MedIm 44 1 0 04 Jul 2024
Semi-Supervised Image Captioning Considering Wasserstein Graph Matching Yang Yang 41 0 0 26 Mar 2024
MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning Bang-ju Yang Fenglin Liu X. Wu Yaowei Wang Xu Sun Yuexian Zou VLM CLIP 44 13 0 25 Aug 2023
Transferable Decoding with Visual Entities for Zero-Shot Image Captioning Junjie Fei Teng Wang Jinrui Zhang Zhenyu He Chengjie Wang Feng Zheng VLM 33 34 0 31 Jul 2023
Text-based Person Search without Parallel Image-Text Data Yang Bai Jingyao Wang Min Cao Cheng Chen Ziqiang Cao Liqiang Nie Min Zhang 42 13 0 22 May 2023
Graph Neural Networks in Vision-Language Image Understanding: A Survey Henry Senior Greg Slabaugh Shanxin Yuan Luca Rossi GNN 33 14 0 07 Mar 2023
KENGIC: KEyword-driven and N-Gram Graph based Image Captioning Brandon Birmingham A. Muscat 27 1 0 07 Feb 2023
Modularity through Attention: Efficient Training and Transfer of Language-Conditioned Policies for Robot Manipulation Yifan Zhou Shubham D. Sonawani Mariano Phielipp Simon Stepputtis H. B. Amor LM&Ro 33 27 0 08 Dec 2022
Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment Junyan Wang Yi Zhang Ming Yan Ji Zhang Jitao Sang VLM 36 9 0 14 Nov 2022
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval Minjoon Jung Seongho Choi Joo-Kyung Kim Jin-Hwa Kim Byoung-Tak Zhang 38 7 0 23 Oct 2022
Data Poisoning Attacks Against Multimodal Encoders Ziqing Yang Xinlei He Zheng Li Michael Backes Mathias Humbert Pascal Berrang Yang Zhang AAML 116 46 0 30 Sep 2022
Prompt-based Learning for Unpaired Image Captioning Peipei Zhu Tianlin Li Lin Zhu Zhenglong Sun Weishi Zheng Yaowei Wang Chia-Ju Chen VLM 27 31 0 26 May 2022
Language Models Can See: Plugging Visual Controls in Text Generation Yixuan Su Tian Lan Yahui Liu Fangyu Liu Dani Yogatama Yan Wang Lingpeng Kong Nigel Collier VLM MLLM 53 97 0 05 May 2022
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding Haojun Jiang Yuanze Lin Dongchen Han Shiji Song Gao Huang ObjD 45 51 0 16 Mar 2022
Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept Recognition Peipei Zhu Tianlin Li Yong Luo Zhenglong Sun Wei-Shi Zheng Yaowei Wang Chia-Ju Chen 30 12 0 07 Mar 2022
Object-Centric Unsupervised Image Captioning Zihang Meng David Yang Xuefei Cao Ashish Shah Ser-Nam Lim OCL VLM 19 11 0 02 Dec 2021
Neural Attention for Image Captioning: Review of Outstanding Methods Zanyar Zohourianshahzadi Jugal Kalita VLM 35 45 0 29 Nov 2021
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf VLM 34 192 0 29 Nov 2021
Zero-shot Natural Language Video Localization Jinwoo Nam Daechul Ahn Dongyeop Kang S. Ha Jonghyun Choi 94 43 0 29 Aug 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 67 255 0 14 Jul 2021
Assessing Multilingual Fairness in Pre-trained Multimodal Representations Jialu Wang Yang Liu Qing Guo EGVM 26 35 0 12 Jun 2021
Recurrent Relational Memory Network for Unsupervised Image Captioning Dan Guo Yang Wang Peipei Song Meng Wang GAN 35 40 0 24 Jun 2020
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 200 434 0 27 Mar 2018