Title
MAGMA: Music Aligned Generative Motion Autodecoder Sohan Anisetty Amit Raj James Hays 56 0 0 03 Sep 2023
Bridge Diffusion Model: bridge non-English language-native text-to-image diffusion model with English communities Shanyuan Liu Dawei Leng Yuhui Yin DiffM 59 7 0 02 Sep 2023
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model Fengxiang Bie Yibo Yang Zhongzhu Zhou Adam Ghanem Minjia Zhang ... Pareesa Ameneh Golnari David A. Clifton Yuxiong He Dacheng Tao Shuaiwen Leon Song EGVM 105 25 0 02 Sep 2023
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation Xin Li Wenqing Chu Ye Wu Weihang Yuan Fanglong Liu Qi Zhang Fu Li Haocheng Feng Errui Ding Jingdong Wang VGen 135 53 0 01 Sep 2023
Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images Cuican Yu Guansong Lu Yihan Zeng Jian Sun Xiaodan Liang Huibin Li Zongben Xu Songcen Xu Wei Zhang Hang Xu 100 15 0 31 Aug 2023
Priority-Centric Human Motion Generation in Discrete Latent Space Hanyang Kong Kehong Gong Dongze Lian Michael Bi Mi Xinchao Wang DiffM 119 55 0 28 Aug 2023
AI-Generated Content (AIGC) for Various Data Modalities: A Survey Lin Geng Foo Hossein Rahmani Jing Liu 276 31 0 27 Aug 2023
Dense Text-to-Image Generation with Attention Modulation Yunji Kim Jiyoung Lee Jin-Hwa Kim Jung-Woo Ha Jun-Yan Zhu DiffM 138 144 0 24 Aug 2023
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages Jinyi Hu Yuan Yao Chong Wang Shanonan Wang Yinxu Pan ... Yankai Lin Jiao Xue Dahai Li Zhiyuan Liu Maosong Sun MLLM VLM 120 56 0 23 Aug 2023
StoryBench: A Multifaceted Benchmark for Continuous Story Visualization Emanuele Bugliarello Hernan Moraldo Ruben Villegas Mohammad Babaeizadeh M. Saffar Han Zhang D. Erhan V. Ferrari Pieter-Jan Kindermans P. Voigtlaender VGen 92 11 0 22 Aug 2023
DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment Xujie Zhang Binbin Yang Michael C. Kampffmeyer Wenqing Zhang Shiyue Zhang Guansong Lu Liang Lin Hang Xu Xiaodan Liang DiffM 76 12 0 22 Aug 2023
Backdooring Textual Inversion for Concept Censorship Yutong Wu Jiehan Zhang Florian Kerschbaum Tianwei Zhang DiffM 93 7 0 21 Aug 2023
SimDA: Simple Diffusion Adapter for Efficient Video Generation Zhen Xing Qi Dai Hang-Rui Hu Zuxuan Wu Yu-Gang Jiang VGen DiffM 103 84 0 18 Aug 2023
Edit Temporal-Consistent Videos with Image Diffusion Model Yuan-Zheng Wang Yong Li Xiaoya Zhang Xin Liu Anbo Dai Antoni B. Chan Zhen Cui DiffM 68 7 0 17 Aug 2023
Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment Qi Chen Chaorui Deng Zixiong Huang Bowen Zhang Mingkui Tan Qi Wu EGVM 105 0 0 16 Aug 2023
Painter: Teaching Auto-regressive Language Models to Draw Sketches Reza Pourreza Apratim Bhattacharyya Sunny Panchal Mingu Lee Pulkit Madan Roland Memisevic 57 6 0 16 Aug 2023
Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation Alexander Martin Haitian Zheng Jie An Jiebo Luo VLM DiffM 79 0 0 14 Aug 2023
MarkovGen: Structured Prediction for Efficient Text-to-Image Generation Sadeep Jayasumana Daniel Glasner Srikumar Ramalingam Andreas Veit Ayan Chakrabarti Surinder Kumar DiffM 47 0 0 14 Aug 2023
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models Hu Ye Jun Zhang Siyi Liu Xiao Han Wei Yang DiffM 134 811 0 13 Aug 2023
White-box Membership Inference Attacks against Diffusion Models Yan Pang Tianhao Wang Xu Kang Mengdi Huai Yang Zhang AAML DiffM 82 24 0 11 Aug 2023
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation Leigang Qu Shengqiong Wu Hao Fei Liqiang Nie Tat-Seng Chua LM&Ro DiffM MLLM 143 100 0 09 Aug 2023
Circumventing Concept Erasure Methods For Text-to-Image Generative Models Minh Pham Kelly O. Marshall Niv Cohen Govind Mittal Chinmay Hegde DiffM 75 46 0 03 Aug 2023
Guiding Image Captioning Models Toward More Specific Captions Simon Kornblith Lala Li Zirui Wang Thao Nguyen 116 15 0 31 Jul 2023
Visual Instruction Inversion: Image Editing via Visual Prompting Thao Nguyen Yuheng Li Utkarsh Ojha Yong Jae Lee DiffM 41 24 0 26 Jul 2023
TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition Shilin Lu Yanzhu Liu A. Kong 158 102 0 24 Jul 2023
Divide & Bind Your Attention for Improved Generative Semantic Nursing Yumeng Li Margret Keuper Dan Zhang Anna Khoreva DiffM 70 51 0 20 Jul 2023
Text2Layer: Layered Image Generation using Latent Diffusion Model Xinyang Zhang Wentian Zhao Xin Lu J. Chien DiffM 63 12 0 19 Jul 2023
Beyond the ML Model: Applying Safety Engineering Frameworks to Text-to-Image Development Shalaleh Rismani Renee Shelby A. Smart Renelito Delos Santos AJung Moon Negar Rostamzadeh 69 9 0 19 Jul 2023
Complexity Matters: Rethinking the Latent Space for Generative Modeling Tianyang Hu Fei Chen Hong Wang Jiawei Li Wei Cao Jiacheng Sun Zechao Li DiffM 118 10 0 17 Jul 2023
Zero-Shot Image Harmonization with Generative Model Prior Jianqi Chen Yilan Zhang Zhengxia Zou Keyan Chen Z. Shi DiffM 68 5 0 17 Jul 2023
Can Pre-Trained Text-to-Image Models Generate Visual Goals for Reinforcement Learning? Jialu Gao Kaizhe Hu Guowei Xu Huazhe Xu LM&Ro 89 17 0 15 Jul 2023
HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models Nataniel Ruiz Yuanzhen Li Varun Jampani Wei Wei Tingbo Hou Yael Pritch Neal Wadhwa Michael Rubinstein Kfir Aberman DiffM 103 183 0 13 Jul 2023
Emu: Generative Pretraining in Multimodality Quan-Sen Sun Qiying Yu Yufeng Cui Fan Zhang Xiaosong Zhang Yueze Wang Hongcheng Gao Jingjing Liu Tiejun Huang Xinlong Wang MLLM 129 138 0 11 Jul 2023
Diffusion idea exploration for art generation N. Verma DiffM 109 1 0 11 Jul 2023
Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback Jaskirat Singh Liang Zheng 114 19 0 10 Jul 2023
DIFF-NST: Diffusion Interleaving For deFormable Neural Style Transfer Dan Ruta Gemma Canet Tarrés Andrew Gilbert Eli Shechtman Nicholas I. Kolkin John Collomosse DiffM 96 5 0 09 Jul 2023
Text-Guided Synthesis of Eulerian Cinemagraphs Aniruddha Mahapatra Aliaksandr Siarohin Hsin-Ying Lee Sergey Tulyakov Sitong Su DiffM VGen 94 21 0 06 Jul 2023
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis Dustin Podell Zion English Kyle Lacey A. Blattmann Tim Dockhorn Jonas Muller Joe Penna Robin Rombach 321 2,458 0 04 Jul 2023
DreamIdentity: Improved Editability for Efficient Face-identity Preserved Image Generation Zhuowei Chen Shancheng Fang Wei Liu Qian He Mengqi Huang Yongdong Zhang Zhendong Mao DiffM 125 24 0 01 Jul 2023
AIGCIQA2023: A Large-scale Image Quality Assessment Database for AI Generated Images: from the Perspectives of Quality, Authenticity and Correspondence Jiarui Wang Huiyu Duan Jing Liu S. Chen Xiongkuo Min Guangtao Zhai EGVM 96 60 0 01 Jul 2023
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data Jin Zhu Huimin Ma Jiansheng Chen Jian Yuan DiffM 117 11 0 25 Jun 2023
On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes Rishabh Agarwal Nino Vieillard Yongchao Zhou Piotr Stańczyk Sabela Ramos Matthieu Geist Olivier Bachem 105 105 0 23 Jun 2023
AudioPaLM: A Large Language Model That Can Speak and Listen Paul Kishan Rubenstein Chulayuth Asawaroengchai D. Nguyen Ankur Bapna Zalan Borsos ... Neil Zeghidour Yu Zhang Zhishuai Zhang Lukás Zilka Christian Frank LM&MA AuLLM VLM 138 295 0 22 Jun 2023
Align, Adapt and Inject: Sound-guided Unified Image Generation Yue Yang Kaipeng Zhang Yuying Ge Wenqi Shao Zeyue Xue Yu Qiao Ping Luo DiffM 104 6 0 20 Jun 2023
MotionGPT: Finetuned LLMs Are General-Purpose Motion Generators Yaqi Zhang Di Huang B. Liu Shixiang Tang Yan Lu Lu Chen Lei Bai Qi Chu Nenghai Yu Wanli Ouyang 168 104 0 19 Jun 2023
UniG3D: A Unified 3D Object Generation Dataset Qinghong Sun Yangguang Li Zexia Liu Xiaoshui Huang Fenggang Liu Xihui Liu Wanli Ouyang Jing Shao 76 6 0 19 Jun 2023
DreamHuman: Animatable 3D Avatars from Text Nikos Kolotouros Thiemo Alldieck Andrei Zanfir Eduard Gabriel Bazavan Mihai Fieraru C. Sminchisescu 111 101 0 15 Jun 2023
Training Multimedia Event Extraction With Generated Images and Captions Zilin Du Yunxin Li Xu Guo Yidan Sun Boyang Albert Li DiffM 88 8 0 15 Jun 2023
Toward Grounded Commonsense Reasoning Minae Kwon Hengyuan Hu Vivek Myers Siddharth Karamcheti Anca Dragan Dorsa Sadigh LM&Ro ReLM LRM 90 10 0 14 Jun 2023
GBSD: Generative Bokeh with Stage Diffusion Jieren Deng Xiaoxia Zhou Hao Tian Zhihong Pan Derek Aguiar DiffM 61 1 0 14 Jun 2023