Title
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation Xingchao Liu Xiwen Zhang Jianzhu Ma Jian Peng Qiang Liu 108 196 0 12 Sep 2023
Beyond Generation: Harnessing Text to Image Models for Object Detection and Segmentation Yunhao Ge Lyne Tchapmi Brian Nlong Zhao Neel Joshi Laurent Itti Vibhav Vineet DiffM 40 14 0 12 Sep 2023
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models Li Chen Mengyi Zhao Yiheng Liu Mingxu Ding Yangyang Song ... Xu Wang Hao Yang Jing Liu Kang Du Min Zheng DiffM 33 53 0 11 Sep 2023
ITI-GEN: Inclusive Text-to-Image Generation Cheng Zhang Xuanbai Chen Siqi Chai Chen Henry Wu Dmitry Lagun Thabo Beeler Fernando de la Torre VLM 38 53 0 11 Sep 2023
NExT-GPT: Any-to-Any Multimodal LLM Shengqiong Wu Hao Fei Leigang Qu Wei Ji Tat-Seng Chua MLLM 46 461 0 11 Sep 2023
Effective Real Image Editing with Accelerated Iterative Diffusion Inversion Zhihong Pan Riccardo Gherardi Xiufeng Xie Stephen Huang DiffM 27 51 0 10 Sep 2023
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization Yang Jin Kun Xu Kun Xu Liwei Chen Chao Liao ... Xiaoqiang Lei Di Zhang Wenwu Ou Kun Gai Yadong Mu MLLM VLM 27 41 0 09 Sep 2023
Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis Jiapeng Zhu Ceyuan Yang Kecheng Zheng Yinghao Xu Zifan Shi Yujun Shen MoE 32 8 0 07 Sep 2023
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation Jiaxi Gu Shicong Wang Haoyu Zhao Tianyi Lu Xing Zhang Zuxuan Wu Songcen Xu Wei Zhang Yu-Gang Jiang Hang Xu DiffM VGen 39 44 0 07 Sep 2023
StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image Generation Zhouxia Wang Xintao Wang Liangbin Xie Zhongang Qi Ying Shan Wenping Wang Ping Luo DiffM 6 7 0 04 Sep 2023
Relay Diffusion: Unifying diffusion process across resolutions for image synthesis Jiayan Teng Wendi Zheng Ming Ding Wenyi Hong Jianqiao Wangni Zhuoyi Yang Jie Tang DiffM 42 41 0 04 Sep 2023
Neural Vector Fields: Generalizing Distance Vector Fields by Codebooks and Zero-Curl Regularization Xianghui Yang Guosheng Lin Zhenghao Chen Luping Zhou 42 2 0 04 Sep 2023
Bridge Diffusion Model: bridge non-English language-native text-to-image diffusion model with English communities Shanyuan Liu Dawei Leng Yuhui Yin DiffM 31 7 0 02 Sep 2023
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model Fengxiang Bie Yibo Yang Zhongzhu Zhou Adam Ghanem Minjia Zhang ... Pareesa Ameneh Golnari David A. Clifton Yuxiong He Dacheng Tao Shuaiwen Leon Song EGVM 36 20 0 02 Sep 2023
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation Xin Li Wenqing Chu Ye Wu Weihang Yuan Fanglong Liu Qi Zhang Fu Li Haocheng Feng Errui Ding Jingdong Wang VGen 45 52 0 01 Sep 2023
Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images Cuican Yu Guansong Lu Yihan Zeng Jian Sun Xiaodan Liang Huibin Li Zongben Xu Songcen Xu Wei Zhang Hang Xu 47 14 0 31 Aug 2023
AI-Generated Content (AIGC) for Various Data Modalities: A Survey Lin Geng Foo Hossein Rahmani Jun Liu 78 31 0 27 Aug 2023
StoryBench: A Multifaceted Benchmark for Continuous Story Visualization Emanuele Bugliarello Hernan Moraldo Ruben Villegas Mohammad Babaeizadeh M. Saffar Han Zhang D. Erhan V. Ferrari Pieter-Jan Kindermans P. Voigtlaender VGen 41 10 0 22 Aug 2023
MusicJam: Visualizing Music Insights via Generated Narrative Illustrations Chuer Chen Nan Cao Jiani Hou Yi Guo Yulei Zhang Yang Shi DiffM 34 0 0 22 Aug 2023
DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment Xujie Zhang Binbin Yang Michael C. Kampffmeyer Wenqing Zhang Shiyue Zhang Guansong Lu Liang Lin Hang Xu Xiaodan Liang DiffM 36 9 0 22 Aug 2023
Backdooring Textual Inversion for Concept Censorship Yutong Wu Jiehan Zhang Florian Kerschbaum Tianwei Zhang DiffM 40 7 0 21 Aug 2023
AltDiffusion: A Multilingual Text-to-Image Diffusion Model Fulong Ye Guangyi Liu Xinya Wu Ledell Yu Wu VLM 42 25 0 19 Aug 2023
Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment Qi Chen Chaorui Deng Zixiong Huang Bowen Zhang Mingkui Tan Qi Wu EGVM 19 0 0 16 Aug 2023
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling Qiwei Li Z. Li Xiantao Cai Bo Du Hai Zhao 28 7 0 15 Aug 2023
Story Visualization by Online Text Augmentation with Context Memory Daechul Ahn Daneul Kim Gwangmo Song Seung Wook Kim Honglak Lee Dongyeop Kang Jonghyun Choi DiffM 19 5 0 15 Aug 2023
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models Hu Ye Jun Zhang Siyi Liu Xiao Han Wei Yang DiffM 59 738 0 13 Aug 2023
White-box Membership Inference Attacks against Diffusion Models Yan Pang Tianhao Wang Xu Kang Mengdi Huai Yang Zhang AAML DiffM 48 22 0 11 Aug 2023
Controlling Character Motions without Observable Driving Source Weiyuan Li Bin Dai Ziyi Zhou Qi Yao Baoyuan Wang VGen 8 1 0 11 Aug 2023
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation Leigang Qu Shengqiong Wu Hao Fei Liqiang Nie Tat-Seng Chua LM&Ro DiffM MLLM 35 88 0 09 Aug 2023
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation Guojin Zhong Jin Yuan Pan Wang Kailun Yang Weili Guan Zhiyong Li DiffM 34 6 0 02 Aug 2023
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks Mustafa Shukor Corentin Dancette Alexandre Ramé Matthieu Cord MoMe MLLM 61 42 0 30 Jul 2023
Online Clustered Codebook Chuanxia Zheng Andrea Vedaldi 37 26 0 27 Jul 2023
Text2Layer: Layered Image Generation using Latent Diffusion Model Xinyang Zhang Wentian Zhao Xin Lu J. Chien DiffM 19 11 0 19 Jul 2023
Grounded Object Centric Learning Avinash Kori Francesco Locatello Fabio De Sousa Ribeiro Francesca Toni Ben Glocker OCL 22 7 0 18 Jul 2023
Zero-Shot Image Harmonization with Generative Model Prior Jianqi Chen Yilan Zhang Zhengxia Zou Keyan Chen Z. Shi DiffM 28 5 0 17 Jul 2023
Planting a SEED of Vision in Large Language Model Yuying Ge Yixiao Ge Ziyun Zeng Xintao Wang Ying Shan VLM MLLM 13 90 0 16 Jul 2023
Diffusion idea exploration for art generation N. Verma DiffM 37 1 0 11 Jul 2023
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning Yuwei Guo Ceyuan Yang Anyi Rao Zhengyang Liang Yaohui Wang Yu Qiao Maneesh Agrawala Dahua Lin Bo Dai VGen 40 788 0 10 Jul 2023
Text-Guided Synthesis of Eulerian Cinemagraphs Aniruddha Mahapatra Aliaksandr Siarohin Hsin-Ying Lee Sergey Tulyakov Junchen Zhu DiffM VGen 24 21 0 06 Jul 2023
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models Chong Mou Xintao Wang Jie Song Ying Shan Jian Zhang DiffM 47 142 0 05 Jul 2023
Text + Sketch: Image Compression at Ultra Low Rates Eric Lei Yiugit Berkay Uslu Hamed Hassani Shirin Saeedi Bidokhti DiffM 23 38 0 04 Jul 2023
JourneyDB: A Benchmark for Generative Image Understanding Keqiang Sun Junting Pan Yuying Ge Hao Li Haodong Duan ... Yi Wang Jifeng Dai Yu Qiao Limin Wang Hongsheng Li 54 104 0 03 Jul 2023
Generate Anything Anywhere in Any Scene Yuheng Li Haotian Liu Yangming Wen Yong Jae Lee DiffM 64 12 0 29 Jun 2023
CLIPAG: Towards Generator-Free Text-to-Image Generation Roy Ganz Michael Elad VLM 36 7 0 29 Jun 2023
BinaryViT: Pushing Binary Vision Transformers Towards Convolutional Models Phuoc-Hoan Charles Le Xinlin Li ViT MQ 30 21 0 29 Jun 2023
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data Jin Zhu Huimin Ma Jiansheng Chen Jian Yuan DiffM 24 10 0 25 Jun 2023
Align, Adapt and Inject: Sound-guided Unified Image Generation Yue Yang Kaipeng Zhang Yuying Ge Wenqi Shao Zeyue Xue Yu Qiao Ping Luo DiffM 24 5 0 20 Jun 2023
UniG3D: A Unified 3D Object Generation Dataset Qinghong Sun Yangguang Li Zexia Liu Xiaoshui Huang Fenggang Liu Xihui Liu Wanli Ouyang Jing Shao 33 6 0 19 Jun 2023
Evaluating the Robustness of Text-to-image Diffusion Models against Real-world Attacks Hongcheng Gao Hao Zhang Yinpeng Dong Zhijie Deng AAML 41 21 0 16 Jun 2023
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation Shuai Yang Yifan Zhou Ziwei Liu Chen Change Loy VGen DiffM 54 207 0 13 Jun 2023