Title
InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning Jing Shi Wei Xiong Zhe-nan Lin H. J. Jung DiffM 133 281 0 06 Apr 2023
Training-Free Layout Control with Cross-Attention Guidance Minghao Chen Iro Laina Andrea Vedaldi DiffM 135 223 0 06 Apr 2023
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation Mayu Otani Riku Togashi Yu Sawai Ryosuke Ishigami Yuta Nakashima Esa Rahtu J. Heikkilä Shiníchi Satoh 38 64 0 04 Apr 2023
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images Roberto Amoroso Davide Morelli Marcella Cornia Lorenzo Baraldi A. Bimbo Rita Cucchiara DiffM 41 29 0 02 Apr 2023
Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment Kim Sung-Bin Arda Senocak H. Ha Andrew Owens Tae-Hyun Oh DiffM VGen 46 37 0 30 Mar 2023
Discriminative Class Tokens for Text-to-Image Diffusion Models Idan Schwartz Vésteinn Snaebjarnarson Hila Chefer Ryan Cotterell Serge Belongie Lior Wolf Sagie Benaim 33 9 0 30 Mar 2023
MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path Qian Wang Biao Zhang Michael Birsak Peter Wonka DiffM 30 17 0 29 Mar 2023
Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation Jiawei Liu Weining Wang Sihan Chen Xinxin Zhu Qingbin Liu DiffM VGen 28 13 0 29 Mar 2023
Variational Distribution Learning for Unsupervised Text-to-Image Generation Minsoo Kang Doyup Lee Jiseob Kim Saehoon Kim Bohyung Han DRL OOD 33 3 0 28 Mar 2023
X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance Yiwei Ma Xiaioqing Zhang Xiaoshuai Sun Jiayi Ji Haowei Wang Guannan Jiang Weilin Zhuang Rongrong Ji 25 39 0 28 Mar 2023
The Stable Signature: Rooting Watermarks in Latent Diffusion Models Pierre Fernandez Guillaume Couairon Hervé Jégou Matthijs Douze Teddy Furon WIGM 31 177 0 27 Mar 2023
DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation Zhengzhe Liu Peng Dai Ruihui Li Xiaojuan Qi Chi-Wing Fu DiffM 21 10 0 24 Mar 2023
CoBIT: A Contrastive Bi-directional Image-Text Generation Model Haoxuan You Mandy Guo Zhecan Wang Kai-Wei Chang Jason Baldridge Jiahui Yu DiffM 54 13 0 23 Mar 2023
TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision Jiacheng Wei Hao Wang Jiashi Feng Guosheng Lin Kim-Hui Yap 24 30 0 23 Mar 2023
MagicFusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models Jing Zhao Heliang Zheng Chaoyue Wang L. Lan Wenjing Yang VLM 45 17 0 23 Mar 2023
NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation Sheng-Siang Yin Chenfei Wu Huan Yang Jianfeng Wang Xiaodong Wang ... Gong Ming Lijuan Wang Zicheng Liu Houqiang Li Nan Duan VGen 20 125 0 22 Mar 2023
LD-ZNet: A Latent Diffusion Approach for Text-Based Image Segmentation K. Pnvr Bharat Singh P. Ghosh Behjat Siddiquie David Jacobs DiffM 35 29 0 22 Mar 2023
MAGVLT: Masked Generative Vision-and-Language Transformer Sungwoong Kim DaeJin Jo Donghoon Lee Jongmin Kim VLM 47 12 0 21 Mar 2023
A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? Chaoning Zhang Chenshuang Zhang Sheng Zheng Yu Qiao Chenghao Li ... Lik-Hang Lee Yang Yang Heng Tao Shen In So Kweon Choong Seon Hong 85 160 0 21 Mar 2023
Localizing Object-level Shape Variations with Text-to-Image Diffusion Models Or Patashnik Daniel Garibi Idan Azuri Hadar Averbuch-Elor Daniel Cohen-Or DiffM 37 109 0 20 Mar 2023
GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation Can Qin Ning Yu Chen Xing Shu Zhen Zhang Zeyuan Chen Stefano Ermon Yun Fu Caiming Xiong Ran Xu DiffM 50 20 0 17 Mar 2023
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing Chenyang Qi Xiaodong Cun Yong Zhang Chenyang Lei Xintao Wang Ying Shan Qifeng Chen VGen 42 331 0 16 Mar 2023
StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized Tokenizer of a Large-Scale Generative Model Zipeng Xu E. Sangineto N. Sebe DiffM 33 13 0 16 Mar 2023
Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion Inhwa Han Serin Yang Taesung Kwon Jong Chul Ye DiffM 31 36 0 15 Mar 2023
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation Zhengxiong Luo Dayou Chen Yingya Zhang Yan Huang Liangsheng Wang Yujun Shen Deli Zhao Jinren Zhou Tien-Ping Tan DiffM VGen 132 309 0 15 Mar 2023
Text-to-image Diffusion Models in Generative AI: A Survey Chenshuang Zhang Chaoning Zhang Mengchun Zhang In So Kweon VLM 51 266 0 14 Mar 2023
One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale Fan Bao Shen Nie Kaiwen Xue Chongxuan Li Shiliang Pu Yaole Wang Gang Yue Yue Cao Hang Su Jun Zhu DiffM 207 150 0 12 Mar 2023
Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation Zhiwei Zhang Yuliang Liu MLLM 30 0 0 10 Mar 2023
Scaling up GANs for Text-to-Image Synthesis Minguk Kang Jun-Yan Zhu Richard Y. Zhang Jaesik Park Eli Shechtman Sylvain Paris Taesung Park 46 447 0 09 Mar 2023
Neural Vector Fields: Implicit Representation by Explicit Learning Xianghui Yang Guosheng Lin Zhenghao Chen Luping Zhou AI4CE 49 17 0 08 Mar 2023
Lformer: Text-to-Image Generation with L-shape Block Parallel Decoding Jiacheng Li Longhui Wei Zongyuan Zhan Xinfu He Siliang Tang Qi Tian Yueting Zhuang 29 4 0 07 Mar 2023
MOSO: Decomposing MOtion, Scene and Object for Video Prediction M. Sun Weining Wang Xinxin Zhu Jing Liu 21 14 0 07 Mar 2023
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners Renrui Zhang Xiangfei Hu Bohao Li Siyuan Huang Hanqiu Deng Hongsheng Li Yu Qiao Peng Gao VLM MLLM 42 170 0 03 Mar 2023
Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation Diederik P. Kingma Ruiqi Gao DiffM 21 128 0 01 Mar 2023
StraIT: Non-autoregressive Generation with Stratified Image Transformer Shengju Qian Huiwen Chang Yuanzhen Li Zizhao Zhang Jiaya Jia Han Zhang 39 10 0 01 Mar 2023
ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation Yuxiang Wei Yabo Zhang Zhilong Ji Jinfeng Bai Lei Zhang W. Zuo DiffM 28 314 0 27 Feb 2023
Entity-Level Text-Guided Image Manipulation Yikai Wang Jianan Wang Guansong Lu Hang Xu Zhenguo Li Wei Zhang Yanwei Fu VGen 34 3 0 22 Feb 2023
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey Tianlin Li Guangyao Chen Guangwu Qian Pengcheng Gao Xiaoyong Wei Yaowei Wang Yonghong Tian Wen Gao AI4CE VLM 48 205 0 20 Feb 2023
Composer: Creative and Controllable Image Synthesis with Composable Conditions Lianghua Huang Di Chen Yu Liu Yujun Shen Deli Zhao Jingren Zhou DiffM 22 279 0 20 Feb 2023
Combining Generative Artificial Intelligence (AI) and the Internet: Heading towards Evolution or Degradation? Gonzalo Martínez Ruiz de Arcaute Lauren Watson Pedro Reviriego José Alberto Hernández Marc Juárez Rik Sarkar 31 41 0 17 Feb 2023
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models Chong Mou Xintao Wang Liangbin Xie Yanze Wu Jing Zhang Zhongang Qi Ying Shan Xiaohu Qie DiffM 31 978 0 16 Feb 2023
From paintbrush to pixel: A review of deep neural networks in AI-generated art Anne-Sofie Maerten Derya Soydaner 37 23 0 14 Feb 2023
VQ3D: Learning a 3D-Aware Generative Model on ImageNet Kyle Sargent Jing Yu Koh Han Zhang Huiwen Chang Charles Herrmann Pratul P. Srinivasan Jiajun Wu Deqing Sun 41 31 0 14 Feb 2023
Multi-modal Machine Learning in Engineering Design: A Review and Future Directions Binyang Song Ruilin Zhou Faez Ahmed AI4CE 42 40 0 14 Feb 2023
Glaze: Protecting Artists from Style Mimicry by Text-to-Image Models Shawn Shan Jenna Cryan Emily Wenger Haitao Zheng Rana Hanocka Ben Y. Zhao WIGM 17 177 0 08 Feb 2023
Zero-shot Image-to-Image Translation Gaurav Parmar Krishna Kumar Singh Richard Y. Zhang Yijun Li Jingwan Lu Jun-Yan Zhu DiffM 24 431 0 06 Feb 2023
Structure and Content-Guided Video Synthesis with Diffusion Models Patrick Esser Johnathan Chiu Parmida Atighehchian Jonathan Granskog Anastasis Germanidis DiffM VGen 96 509 0 06 Feb 2023
Design Booster: A Text-Guided Diffusion Model for Image Translation with Spatial Layout Preservation Shiqi Sun Shancheng Fang Qian He Wei Liu DiffM 33 3 0 05 Feb 2023
GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis Ming Tao Bingkun Bao Hao Tang Changsheng Xu DiffM VLM 77 102 0 30 Jan 2023
Regeneration Learning: A Learning Paradigm for Data Generation Xu Tan Tao Qin Jiang Bian Tie-Yan Liu Yoshua Bengio GAN 38 15 0 21 Jan 2023