Hierarchical Text-Conditional Image Generation with CLIP Latents

13 April 2022

Papers citing "Hierarchical Text-Conditional Image Generation with CLIP Latents"

50 / 4,757 papers shown

Title
MVGaussian: High-Fidelity text-to-3D Content Generation with Multi-View Guidance and Surface Densification Phu-Cuong Pham Aradhya Neeraj Mathur Ojaswa Sharma Aniket Bera 3DV 3DGS 29 1 0 10 Sep 2024
Enhancing Emotional Text-to-Speech Controllability with Natural Language Guidance through Contrastive Learning and Diffusion Models Xin Jing Kun Zhou Andreas Triantafyllopoulos Björn W. Schuller DiffM 44 3 0 10 Sep 2024
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis Qi Yang Binjie Mao Zili Wang Xing Nie Pengfei Gao Ying Guo Cheng Zhen Pengfei Yan Shiming Xiang VGen DiffM 48 5 0 10 Sep 2024
DiffQRCoder: Diffusion-based Aesthetic QR Code Generation with Scanning Robustness Guided Iterative Refinement Jia-Wei Liao Winston Wang Tzu-Sian Wang Li-Xuan Peng Ju-Hsuan Weng Cheng-Fu Chou Jun-Cheng Chen DiffM 56 1 0 10 Sep 2024
DiffusionPen: Towards Controlling the Style of Handwritten Text Generation Konstantina Nikolaidou George Retsinas Giorgos Sfikas Marcus Liwicki DiffM 50 3 0 09 Sep 2024
Analyzing Tumors by Synthesis Qi Chen Yuxiang Lai Xiaoxi Chen Qixin Hu Alan Yuille Zongwei Zhou 38 3 0 09 Sep 2024
Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models Aakash Sen Sharma Niladri Sarkar Vikram S Chundawat Ankur Mali Murari Mandal DiffM MU 50 4 0 09 Sep 2024
CipherDM: Secure Three-Party Inference for Diffusion Model Sampling Xin Zhao Xiaojun Chen Xinyu Chen He Li Tingyu Fan Zhendong Zhao 52 1 0 09 Sep 2024
BrainDecoder: Style-Based Visual Decoding of EEG Signals Minsuk Choi Hiroshi Ishikawa 33 0 0 09 Sep 2024
pFedGPA: Diffusion-based Generative Parameter Aggregation for Personalized Federated Learning Jiahao Lai Jiaqiang Li Jian Xu Yanru Wu Boshi Tang Siqi Chen Yongfeng Huang Wenbo Ding Yang Li FedML 81 0 0 09 Sep 2024
Plug-and-Hide: Provable and Adjustable Diffusion Generative Steganography Jiahao Zhu Zixuan Chen Lingxiao Yang Xiaohua Xie Yi Zhou DiffM 28 0 0 07 Sep 2024
Rethinking The Training And Evaluation of Rich-Context Layout-to-Image Generation Jiaxin Cheng Zixu Zhao Tong He Tianjun Xiao Yicong Zhou Zheng Zhang DiffM 60 0 0 07 Sep 2024
Reward-Directed Score-Based Diffusion Models via q-Learning Xuefeng Gao Jiale Zha X. Zhou DiffM 41 2 0 07 Sep 2024
Multi-Modal Diffusion for Hand-Object Grasp Generation Jinkun Cao Jingyuan Liu Kris Kitani Yi Zhou 44 3 0 06 Sep 2024
Efficient Training of Large Vision Models via Advanced Automated Progressive Learning Changlin Li Jiawei Zhang Sihao Lin Zongxin Yang Junwei Liang Xiaodan Liang Xiaojun Chang VLM 41 0 0 06 Sep 2024
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers Lorenza Prospero Abdullah Hamdi João F. Henriques Christian Rupprecht 3DGS 38 2 0 06 Sep 2024
DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes Jianbiao Mei Yukai Ma Xuemeng Yang Licheng Wen Tiantian Wei Min Dou Yukai Ma Min Dou Botian Shi Yong Liu DiffM VGen 82 3 0 06 Sep 2024
Blended Latent Diffusion under Attention Control for Real-World Video Editing Deyin Liu Lin Yuanbo Wu Xianghua Xie DiffM 54 0 0 05 Sep 2024
Data-free Distillation with Degradation-prompt Diffusion for Multi-weather Image Restoration Pei Wang Xiaotong Luo Yuan Xie Yanyun Qu DiffM 57 1 0 05 Sep 2024
iSeg: An Iterative Refinement-based Framework for Training-free Segmentation Lin Sun Jiale Cao J. Xie Fahad Shahbaz Khan Yanwei Pang DiffM 48 1 0 05 Sep 2024
DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture Qianlong Xiang Miao Zhang Yuzhang Shang Jianlong Wu Yan Yan Liqiang Nie DiffM 66 10 0 05 Sep 2024
Human-VDM: Learning Single-Image 3D Human Gaussian Splatting from Video Diffusion Models Zhibin Liu Haoye Dong Aviral Chharia Hefeng Wu 3DGS VGen 60 0 0 04 Sep 2024
LinFusion: 1 GPU, 1 Minute, 16K Image Songhua Liu Weihao Yu Zhenxiong Tan Xinchao Wang 48 13 0 03 Sep 2024
Differentially Private Kernel Density Estimation Erzhi Liu Jerry Yao-Chieh Hu Alex Reneau Zhao Song Han Liu 69 3 0 03 Sep 2024
Target-Driven Distillation: Consistency Distillation with Target Timestep Selection and Decoupled Guidance Cunzheng Wang Ziyuan Guo Yuxuan Duan Huaxia Li Nemo Chen Xu Tang Yao Hu DiffM 38 3 0 02 Sep 2024
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing Vadim Titov Madina Khalmatova Alexandra Ivanova Dmitry Vetrov Aibek Alanov DiffM 56 5 0 02 Sep 2024
DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing Xiaolong Wang Zhi-Qi Cheng Jue Wang Xiaojiang Peng DiffM 40 0 0 02 Sep 2024
Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation Qihua Chen Yi Ma Haobo Wang Junkun Yuan Wenzhe Zhao Q. Tian Hongmei Wang Shaobo Min Qifeng Chen Wen Liu DiffM 50 16 0 02 Sep 2024
Semantically Controllable Augmentations for Generalizable Robot Learning Zoey Chen Zhao Mandi Homanga Bharadhwaj Mohit Sharma Shuran Song Abhishek Gupta Vikash Kumar LM&Ro 42 5 0 02 Sep 2024
SPDiffusion: Semantic Protection Diffusion Models for Multi-concept Text-to-image Generation Yang Zhang Rui Zhang Xuecheng Nie Haochen Li Jikun Chen Yifan Hao Xin Zhang Luoqi Liu Ling Li 50 0 0 02 Sep 2024
Seed-to-Seed: Image Translation in Diffusion Seed Space Or Greenberg Eran Kishon Dani Lischinski DiffM 37 0 0 01 Sep 2024
Compositional 3D-aware Video Generation with LLM Director Hanxin Zhu Tianyu He Anni Tang Junliang Guo Zhibo Chen Jiang Bian DiffM VGen 53 7 0 31 Aug 2024
EraseDraw: Learning to Insert Objects by Erasing Them from Images Alper Canberk Maksym Bondarenko Ege Ozguroglu Ruoshi Liu Carl Vondrick DiffM 37 2 0 31 Aug 2024
PS-StyleGAN: Illustrative Portrait Sketching using Attention-Based Style Adaptation Kushal Kumar Jain Ankith Varun J A. Namboodiri 43 0 0 31 Aug 2024
Training-Free Sketch-Guided Diffusion with Latent Optimization Sandra Zhang Ding Jiafeng Mao Kiyoharu Aizawa DiffM 101 3 0 31 Aug 2024
From Latent to Engine Manifolds: Analyzing ImageBind's Multimodal Embedding Space Andrew Hamara Pablo Rivas 21 1 0 30 Aug 2024
Image-Perfect Imperfections: Safety, Bias, and Authenticity in the Shadow of Text-To-Image Model Evolution Yixin Wu Yun Shen Michael Backes Yang Zhang 50 1 0 30 Aug 2024
How Could Generative AI Support Compliance with the EU AI Act? A Review for Safe Automated Driving Perception Mert Keser Youssef Shoeb Alois Knoll 56 2 0 30 Aug 2024
Contrastive Learning with Synthetic Positives Dewen Zeng Yawen Wu Xinrong Hu Xiaowei Xu Yiyu Shi SyDa SSL 56 1 0 30 Aug 2024
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model F. Liu Wenqiang Sun Hanyang Wang Yikai Wang Haowen Sun Junliang Ye Jun Zhang Yueqi Duan VGen 52 31 0 29 Aug 2024
A Score-Based Density Formula, with Applications in Diffusion Generative Models Gen Li Yuling Yan DiffM 61 0 0 29 Aug 2024
One-Shot Learning Meets Depth Diffusion in Multi-Object Videos Anisha Jain VGen DiffM MDE 29 1 0 29 Aug 2024
GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models Moreno DÍncà E. Peruzzo Massimiliano Mancini Xingqian Xu Humphrey Shi N. Sebe 67 0 0 29 Aug 2024
GRPose: Learning Graph Relations for Human Image Generation with Pose Priors Xiangchen Yin Donglin Di Lei Fan Hao Li Chen Wei Xiaofei Gou Yang Song Xiao Sun Xun Yang DiffM 38 3 0 29 Aug 2024
Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation Xiaoyu Jin Zunnan Xu Mingwen Ou Wenming Yang DiffM 50 7 0 29 Aug 2024
SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models Guangxi Li Yinsheng Song Mingkai Zheng 46 0 0 29 Aug 2024
CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization Feize Wu Yun Pang Junyi Zhang Lianyu Pang Jian Yin Baoquan Zhao Qing Li Xudong Mao DiffM 43 4 0 28 Aug 2024
Are Pose Estimators Ready for the Open World? STAGE: Synthetic Data Generation Toolkit for Auditing 3D Human Pose Estimators Nikita Kister István Sárándi Anna Khoreva Gerard Pons-Moll 58 0 0 28 Aug 2024
VoxInstruct: Expressive Human Instruction-to-Speech Generation with Unified Multilingual Codec Language Modelling Yixuan Zhou Xiaoyu Qin Zeyu Jin Shuoyi Zhou Shun Lei Songtao Zhou Zhiyong Wu Jia Jia AuLLM 37 5 0 28 Aug 2024
Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas Fabio Quattrini Vittorio Pippi Silvia Cascianelli Rita Cucchiara 48 3 0 28 Aug 2024