Hierarchical Text-Conditional Image Generation with CLIP Latents

13 April 2022

Papers citing "Hierarchical Text-Conditional Image Generation with CLIP Latents"

50 / 4,897 papers shown

Title
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task Shangda Wu Maosong Sun 74 20 0 21 Nov 2022
Investigating Prompt Engineering in Diffusion Models Sam Witteveen Martin Andrews 64 60 0 21 Nov 2022
Diffusion-Based Scene Graph to Image Generation with Masked Contrastive Pre-Training Ling Yang Zhilin Huang Yang Song Shenda Hong Ge Li Wentao Zhang Tengjiao Wang Guohao Li Ming-Hsuan Yang 104 57 0 21 Nov 2022
Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adaptors Thomas Hartvigsen S. Sankaranarayanan Hamid Palangi Yoon Kim Marzyeh Ghassemi KELM 155 177 0 20 Nov 2022
MagicVideo: Efficient Video Generation With Latent Diffusion Models Daquan Zhou Weimin Wang Hanshu Yan Weiwei Lv Yizhe Zhu Jiashi Feng DiffM VGen 129 390 0 20 Nov 2022
Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhu Chen DiffM 97 65 0 20 Nov 2022
IC3D: Image-Conditioned 3D Diffusion for Shape Generation Cristian Sbrolli Paolo Cudrano Matteo Frosi Matteo Matteucci DiffM 48 7 0 20 Nov 2022
A survey on knowledge-enhanced multimodal learning Maria Lymperaiou Giorgos Stamou 159 15 0 19 Nov 2022
DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization Nisha Huang Yuxin Zhang Fan Tang Chongyang Ma Haibin Huang Yong Zhang Weiming Dong Changsheng Xu DiffM 92 44 0 19 Nov 2022
Magic3D: High-Resolution Text-to-3D Content Creation Chen-Hsuan Lin Jun Gao Luming Tang Towaki Takikawa Fangyin Wei Xun Huang Karsten Kreis Sanja Fidler Ming-Yuan Liu Nayeon Lee 238 1,167 0 18 Nov 2022
Invariant Learning via Diffusion Dreamed Distribution Shifts Priyatham Kattakinda Alexander Levine Soheil Feizi DiffM 62 10 0 18 Nov 2022
RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation Titas Anciukevicius Zexiang Xu Matthew Fisher Paul Henderson Hakan Bilen Niloy J. Mitra Paul Guerrero 122 160 0 17 Nov 2022
InstructPix2Pix: Learning to Follow Image Editing Instructions Tim Brooks Aleksander Holynski Alexei A. Efros DiffM 215 1,841 0 17 Nov 2022
Conffusion: Confidence Intervals for Diffusion Models Eliahu Horwitz Yedid Hoshen DiffM 81 28 0 17 Nov 2022
DiffusionDet: Diffusion Model for Object Detection Shoufa Chen Pei Sun Yibing Song Ping Luo 133 473 0 17 Nov 2022
Assessing Neural Network Robustness via Adversarial Pivotal Tuning Peter Ebert Christensen Vésteinn Snaebjarnarson Andrea Dittadi Serge Belongie Sagie Benaim AAML 93 1 0 17 Nov 2022
Efficient Transformers with Dynamic Token Pooling Piotr Nawrot J. Chorowski Adrian Lañcucki Edoardo Ponti 83 46 0 17 Nov 2022
Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models Simon Alexanderson Rajmund Nagy Jonas Beskow G. Henter DiffM VGen 79 174 0 17 Nov 2022
Is the Elephant Flying? Resolving Ambiguities in Text-to-Image Generative Models Ninareh Mehrabi Palash Goyal Apurv Verma Jwala Dhamala Varun Kumar Qian Hu Kai-Wei Chang R. Zemel Aram Galstyan Rahul Gupta 63 6 0 17 Nov 2022
GLAMI-1M: A Multilingual Image-Text Fashion Dataset Vaclav Kosar A. Hoskovec Milan Šulc Radek Bartyzal VLM 71 3 0 17 Nov 2022
MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis Tianhong Li Huiwen Chang Shlok Kumar Mishra Han Zhang Dina Katabi Dilip Krishnan 90 170 0 16 Nov 2022
GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection Yan Ju Shan Jia Jia Cai Haiying Guan Siwei Lyu CVBM 118 28 0 16 Nov 2022
A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive Coding Networks Tommaso Salvatori Yuhang Song Yordan Yordanov Beren Millidge Zheng R. Xu Lei Sha Cornelius Emde Rafal Bogacz Thomas Lukasiewicz 99 13 0 16 Nov 2022
Versatile Diffusion: Text, Images and Variations All in One Diffusion Model Xingqian Xu Zhangyang Wang Eric Zhang Kai Wang Humphrey Shi DiffM 153 198 0 15 Nov 2022
Will Large-scale Generative Models Corrupt Future Datasets? Ryuichiro Hataya Han Bao Hiromi Arai 59 58 0 15 Nov 2022
Cross-Reality Re-Rendering: Manipulating between Digital and Physical Realities Siddhartha Datta 85 0 0 15 Nov 2022
General Intelligence Requires Rethinking Exploration Minqi Jiang Tim Rocktaschel Edward Grefenstette LRM 79 20 0 15 Nov 2022
Diffusion Models for Medical Image Analysis: A Comprehensive Survey Amirhossein Kazerouni Ehsan Khodapanah Aghdam Moein Heidari Reza Azad Mohsen Fayyaz Ilker Hacihaliloglu Dorit Merhof DiffM MedIm 135 397 0 14 Nov 2022
Extreme Generative Image Compression by Learning Text Embedding from Diffusion Models Zhihong Pan Xiaoxia Zhou Hao Tian DiffM 75 23 0 14 Nov 2022
Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image Generation Zhihong Pan Xiaoxia Zhou Hao Tian DiffM 62 12 0 14 Nov 2022
Logical Tasks for Measuring Extrapolation and Rule Comprehension Ippei Fujisawa Ryota Kanai ELM LRM 71 4 0 14 Nov 2022
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale Yuxin Fang Wen Wang Binhui Xie Quan-Sen Sun Ledell Yu Wu Xinggang Wang Tiejun Huang Xinlong Wang Yue Cao VLM CLIP 243 729 0 14 Nov 2022
Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures G. Metzer Elad Richardson Or Patashnik Raja Giryes Daniel Cohen-Or DiffM 192 471 0 14 Nov 2022
A Novel Sampling Scheme for Text- and Image-Conditional Image Synthesis in Quantized Latent Spaces Dominic Rampas Pablo Pernias Marc Aubreville DiffM 61 12 0 14 Nov 2022
Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment Junyan Wang Yi Zhang Ming Yan Ji Zhang Jitao Sang VLM 60 9 0 14 Nov 2022
ParCNetV2: Oversized Kernel with Enhanced Attention Ruihan Xu Haokui Zhang Wenze Hu Shiliang Zhang Xiaoyu Wang ViT 85 6 0 14 Nov 2022
Large-Scale Bidirectional Training for Zero-Shot Image Captioning Taehoon Kim Mark A Marsden Pyunghwan Ahn Sangyun Kim Sihaeng Lee Alessandra Sala S. Kim VLM 62 4 0 13 Nov 2022
DriftRec: Adapting diffusion models to blind JPEG restoration Simon Welker H. Chapman Timo Gerkmann DiffM 95 13 0 12 Nov 2022
Design of Unmanned Air Vehicles Using Transformer Surrogate Models Adam D. Cobb Anirban Roy Daniel Elenius Susmit Jha AI4CE 48 1 0 11 Nov 2022
HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for Controllable Text-Driven Person Image Generation Kai Zhang Muyi Sun Jianxin Sun Binghao Zhao Kunbo Zhang Zhenan Sun Tieniu Tan DiffM 82 12 0 11 Nov 2022
Efficient HLA imputation from sequential SNPs data by Transformer Kaho Tanaka Kosuke Kato Naoki Nonaka J. Seita BDL 65 7 0 11 Nov 2022
SSGVS: Semantic Scene Graph-to-Video Synthesis Yuren Cong Jinhui Yi Bodo Rosenhahn M. Yang 133 8 0 11 Nov 2022
Steps towards prompt-based creation of virtual worlds Jasmine Roberts Andrzej Banburski-Fahey J. Lanier 61 14 0 10 Nov 2022
Hybrid quantum neural network for drug response prediction Asel Sagingalieva Mohammad Kordzanganeh Nurbolat Kenbayev Daria Kosichkina Tatiana Tomashuk A. Melnikov 76 75 0 10 Nov 2022
Impact of Adversarial Training on Robustness and Generalizability of Language Models Enes Altinisik Hassan Sajjad Husrev Taha Sencar Safa Messaoud Sanjay Chawla AAML 59 11 0 10 Nov 2022
Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models P. Schramowski Manuel Brack Bjorn Deiseroth Kristian Kersting 157 312 0 09 Nov 2022
ZK-IMG: Attested Images via Zero-Knowledge Proofs to Fight Disinformation Daniel Kang Tatsunori Hashimoto Ion Stoica Yi Sun 78 15 0 09 Nov 2022
Robosourcing Educational Resources -- Leveraging Large Language Models for Learnersourcing Paul Denny Sami Sarsa Arto Hellas Juho Leinonen AI4Ed 51 37 0 09 Nov 2022
Self-conditioned Embedding Diffusion for Text Generation Robin Strudel Corentin Tallec Florent Altché Yilun Du Yaroslav Ganin ... Will Grathwohl Nikolay Savinov Sander Dieleman Laurent Sifre Rémi Leblond DiffM 89 88 0 08 Nov 2022
Posterior samples of source galaxies in strong gravitational lenses with score-based priors Alexandre Adam A. Coogan Nikolay Malkin Ronan Legin Laurence Perreault Levasseur Y. Hezaveh Yoshua Bengio DiffM 96 24 0 07 Nov 2022