Hierarchical Text-Conditional Image Generation with CLIP Latents

13 April 2022

Papers citing "Hierarchical Text-Conditional Image Generation with CLIP Latents"

50 / 4,757 papers shown

Title
Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond Hong Chen Xin Wang Yuwei Zhou Bin Huang Yipeng Zhang Wei Feng Houlun Chen Zeyang Zhang Siao Tang Wenwu Zhu DiffM 55 7 0 23 Sep 2024
ControlEdit: A MultiModal Local Clothing Image Editing Method Di Cheng YingJie Shi ShiXin Sun JiaFu Zhang WeiJing Wang Yu Liu DiffM 28 0 0 23 Sep 2024
VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models Jingtao Cao Zheng Zhang Hongru Wang Kam-Fai Wong 44 0 0 23 Sep 2024
A Large Language Model and Denoising Diffusion Framework for Targeted Design of Microstructures with Commands in Natural Language Nikita Kartashov Nikolaos N. Vlassis DiffM AI4CE 32 1 0 22 Sep 2024
Anisotropic Diffusion Probabilistic Model for Imbalanced Image Classification Jingyu Kong Yuan Guo Yu Wang Yuping Duan DiffM MedIm 41 0 0 22 Sep 2024
Dormant: Defending against Pose-driven Human Image Animation Jiachen Zhou Mingsi Wang Tianlin Li Guozhu Meng Kai Chen 69 3 0 22 Sep 2024
JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation Hadrien Reynaud Matthew Baugh Mischa Dombrowski Sarah Cechnicka Qingjie Meng Bernhard Kainz VLM 44 0 0 21 Sep 2024
Adversarial Attacks on Parts of Speech: An Empirical Study in Text-to-Image Generation G M Shahariar Jia Chen Jiachen Li Yue Dong 43 0 0 21 Sep 2024
MirrorStories: Reflecting Diversity through Personalized Narrative Generation with Large Language Models Sarfaroz Yunusov Hamza Sidat Ali Emami 76 0 0 20 Sep 2024
SiSCo: Signal Synthesis for Effective Human-Robot Communication Via Large Language Models Shubham D. Sonawani F. Weigend H. B. Amor 18 0 0 20 Sep 2024
Imagine yourself: Tuning-Free Personalized Image Generation Zecheng He Bo Sun Felix Juefei-Xu Haoyu Ma Ankit Ramchandani ... Ning Zhang Peizhao Zhang Roshan Sumbaly Peter Vajda Animesh Sinha DiffM 39 17 0 20 Sep 2024
What does guidance do? A fine-grained analysis in a simple setting Muthu Chidambaram Khashayar Gatmiry Sitan Chen Holden Lee Jianfeng Lu 39 8 0 19 Sep 2024
DNI: Dilutional Noise Initialization for Diffusion Video Editing Sunjae Yoon Gwanhyeong Koo Ji Woo Hong Chang D. Yoo DiffM 52 2 0 19 Sep 2024
LARE: Latent Augmentation using Regional Embedding with Vision-Language Model Kosuke Sakurai Tatsuya Ishii Ryotaro Shimizu Linxin Song Masayuki Goto VLM 31 0 0 19 Sep 2024
FlexiTex: Enhancing Texture Generation with Visual Guidance Dadong Jiang Xianghui Yang Zibo Zhao Sheng Zhang Jiaao Yu Zeqiang Lai Shaoxiong Yang Chunchao Guo Xiaobo Zhou Zhihui Ke 53 6 0 19 Sep 2024
Understanding Implosion in Text-to-Image Generative Models Wenxin Ding Cathy Y. Li Shawn Shan Ben Y. Zhao Haitao Zheng 41 1 0 18 Sep 2024
Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance Jaehoon Joo Taejin Jeong Seongjae Hwang DiffM 37 3 0 18 Sep 2024
ABHINAW: A method for Automatic Evaluation of Typography within AI-Generated Images Abhinaw Jagtap Nachiket Tapas R. G. Brajesh EGVM 39 0 0 18 Sep 2024
NT-ViT: Neural Transcoding Vision Transformers for EEG-to-fMRI Synthesis Romeo Lanzino Federico Fontana Luigi Cinque Francesco Scarcello Atsuto Maki MedIm 34 3 0 18 Sep 2024
GUNet: A Graph Convolutional Network United Diffusion Model for Stable and Diversity Pose Generation Shuowen Liang Sisi Li Qingyun Wang Cen Zhang Kaiquan Zhu Tian Yang DiffM 33 0 0 18 Sep 2024
OmniGen: Unified Image Generation Shitao Xiao Yueze Wang Yueze Wang Huaying Yuan Xingrun Xing Ruiran Yan Shuting Wang Tiejun Huang Zheng Liu DiffM VLM SyDa 67 66 0 17 Sep 2024
Edge-based Denoising Image Compression Ryugo Morita Hitoshi Nishimura Ko Watanabe Andreas Dengel Jinjia Zhou 42 0 0 17 Sep 2024
Towards Effective User Attribution for Latent Diffusion Models via Watermark-Informed Blending Yongyang Pan Xiaohong Liu Siqi Luo Yi Xin Xiao Guo Xiaoming Liu Xiongkuo Min Guangtao Zhai DiffM WIGM 31 4 0 17 Sep 2024
Sparks of Artificial General Intelligence(AGI) in Semiconductor Material Science: Early Explorations into the Next Frontier of Generative AI-Assisted Electron Micrograph Analysis Sakhinana Sagar Srinivas Geethan Sannidhi Sreeja Gangasani Chidaksh Ravuru Venkataramana Runkana 40 0 0 17 Sep 2024
Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models Tianqi Chen Shujian Zhang Mingyuan Zhou DiffM 85 4 0 17 Sep 2024
Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models Bingchen Liu Ehsan Akhgari Alexander Visheratin Aleks Kamko Linmiao Xu Shivam Shrirao Joao Souza Suhail Doshi Daiqing Li Daiqing Li DiffM MLLM 36 48 0 16 Sep 2024
Optimizing Resource Consumption in Diffusion Models through Hallucination Early Detection Federico Betti Lorenzo Baraldi Lorenzo Baraldi Rita Cucchiara N. Sebe DiffM 41 0 0 16 Sep 2024
Incorporating Classifier-Free Guidance in Diffusion Model-Based Recommendation Noah Buchanan Susan Gauch Quan Mai DiffM VLM 45 1 0 16 Sep 2024
DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval Yifei Xin Xuxin Cheng Zhihong Zhu Xusheng Yang Yuexian Zou DiffM 41 5 0 16 Sep 2024
Latent Diffusion Models for Controllable RNA Sequence Generation Kaixuan Huang Yukang Yang Kaidi Fu Yanyi Chu Le Cong Mengdi Wang 52 1 0 15 Sep 2024
PROSE-FD: A Multimodal PDE Foundation Model for Learning Multiple Operators for Forecasting Fluid Dynamics Yuxuan Liu Jingmin Sun Xinjie He Griffin Pinney Zecheng Zhang Hayden Schaeffer AI4CE 45 7 0 15 Sep 2024
Finetuning CLIP to Reason about Pairwise Differences Dylan Sam Devin Willmott João Dias Semedo J. Zico Kolter VLM 71 3 0 15 Sep 2024
TextureDiffusion: Target Prompt Disentangled Editing for Various Texture Transfer Zihan Su Junhao Zhuang Chun Yuan DiffM 58 0 0 15 Sep 2024
Adaptive Multi-Modal Control of Digital Human Hand Synthesis Using a Region-Aware Cycle Loss Qifan Fu Xiaohang Yang Muhammad Asad Changjae Oh Shanxin Yuan Gregory Slabaugh 44 3 0 13 Sep 2024
Pushing Joint Image Denoising and Classification to the Edge Thomas C Markhorst Jan van Gemert O. Kayhan 40 0 0 13 Sep 2024
Affective Computing Has Changed: The Foundation Model Disruption Björn Schuller Adria Mallol-Ragolta Alejandro Pena Almansa Iosif Tsangko Mostafa M. Amin A. Semertzidou Lukas Christ Shahin Amiriparian 35 0 0 13 Sep 2024
Detect Fake with Fake: Leveraging Synthetic Data-driven Representation for Synthetic Image Detection Hina Otake Yoshihiro Fukuhara Yoshiki Kubotani Shigeo Morishima ViT 66 0 0 13 Sep 2024
InstantDrag: Improving Interactivity in Drag-based Image Editing Joonghyuk Shin Daehyeon Choi Jaesik Park DiffM 51 7 0 13 Sep 2024
Think Twice Before You Act: Improving Inverse Problem Solving With MCMC Y. Zhu Zehao Dou Haoxin Zheng Yasi Zhang Ying Nian Wu Ruiqi Gao DiffM 38 6 0 13 Sep 2024
Enhancing Privacy in ControlNet and Stable Diffusion via Split Learning Dixi Yao 40 0 0 13 Sep 2024
Sub-graph Based Diffusion Model for Link Prediction Hang Li Wei Jin Geri Skenderi Harry Shomer Wenzhuo Tang Wenqi Fan Jiliang Tang DiffM 35 0 0 13 Sep 2024
Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learning Hanyang Zhao Haoxian Chen Ji Zhang David D. Yao Wenpin Tang 57 3 0 12 Sep 2024
DeCLIP: Decoding CLIP representations for deepfake localization Stefan Smeu Elisabeta Oneata Dan Oneaţă 67 4 0 12 Sep 2024
Click2Mask: Local Editing with Dynamic Mask Generation Omer Regev Omri Avrahami Dani Lischinski DiffM 58 1 0 12 Sep 2024
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder NaHyeon Park Kunhee Kim Hyunjung Shim DiffM 52 2 1 12 Sep 2024
Theoretical guarantees in KL for Diffusion Flow Matching Marta Gentiloni Silveri Giovanni Conforti Alain Durmus 53 2 0 12 Sep 2024
Diffusion-Based Image-to-Image Translation by Noise Correction via Prompt Interpolation Junsung Lee Minsoo Kang Bohyung Han DiffM VLM 31 3 0 12 Sep 2024
DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation Haibo Yang Yang Chen Yingwei Pan Ting Yao Zhineng Chen Zuxuan Wu Yu-Gang Jiang Tao Mei 50 6 0 11 Sep 2024
Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models Haibo Yang Yang Chen Yingwei Pan Ting Yao Zhineng Chen Chong-Wah Ngo Tao Mei VGen 33 8 0 11 Sep 2024
Generative Hierarchical Materials Search Sherry Yang Simon L. Batzner Ruiqi Gao Muratahan Aykol Alexander L. Gaunt Brendan McMorrow Danilo J. Rezende Dale Schuurmans Igor Mordatch E. D. Cubuk AI4CE 45 6 0 10 Sep 2024