LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation?

16 April 2024

Papers citing "LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation?"

9 / 9 papers shown

Title
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles Rui Zhao Weijia Mao Mike Zheng Shou 66 0 0 05 Mar 2025
Towards Diverse and Efficient Audio Captioning via Diffusion Models Manjie Xu Chenxing Li Xinyi Tu Yong Ren Ruibo Fu Wei Liang Dong Yu DiffM 41 1 0 14 Sep 2024
ChatTraffic: Text-to-Traffic Generation via Diffusion Model Chengyang Zhang Yong Zhang Qitan Shao Bo Li Yisheng Lv Xinglin Piao Baocai Yin 30 5 0 27 Nov 2023
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 158 1,016 0 25 Nov 2023
DiffusER: Discrete Diffusion via Edit-based Reconstruction Machel Reid Vincent J. Hellendoorn Graham Neubig DiffM 48 39 0 30 Oct 2022
CLIP-Diffusion-LM: Apply Diffusion Model on Image Captioning Shi-You Xu VLM DiffM 32 11 0 10 Oct 2022
Diffusion-LM Improves Controllable Text Generation Xiang Lisa Li John Thickstun Ishaan Gulrajani Percy Liang Tatsunori B. Hashimoto AI4CE 173 776 0 27 May 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 305 7,443 0 11 Nov 2021
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 294 75,834 0 18 May 2015