Hierarchical Text-Conditional Image Generation with CLIP Latents

13 April 2022

Papers citing "Hierarchical Text-Conditional Image Generation with CLIP Latents"

50 / 4,897 papers shown

Title
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models Jinjin Zhang Qiuyu Huang Junjie Liu Xiefan Guo Di Huang 127 7 0 24 Mar 2025
SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction Zhengyuan Li Kai Cheng Anindita Ghosh Uttaran Bhattacharya Liangyan Gui Aniket Bera DiffM VGen 100 1 0 23 Mar 2025
OmnimatteZero: Fast Training-free Omnimatte with Pre-trained Video Diffusion Models Dvir Samuel Matan Levy N. Darshan Gal Chechik Rami Ben-Ari DiffM 118 0 0 23 Mar 2025
ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation Oucheng Huang Yuhang Ma Zeng Zhao Mingrui Wu Jiayi Ji Rongsheng Zhang Zhibo Hu Xiaoshuai Sun Rongrong Ji 78 1 0 22 Mar 2025
Towards Transformer-Based Aligned Generation with Self-Coherence Guidance Shulei Wang Wang Lin Hai Huang Hanting Wang Sihang Cai ... Tao Jin Jingyuan Chen Jiacheng Sun Jieming Zhu Zhou Zhao DiffM 125 3 0 22 Mar 2025
InstructVEdit: A Holistic Approach for Instructional Video Editing Chi Zhang C. Feng Feng Yan Qiming Zhang Mingjin Zhang Yujie Zhong Jing Zhang Lin Ma DiffM VGen 88 1 0 22 Mar 2025
DynASyn: Multi-Subject Personalization Enabling Dynamic Action Synthesis Yongjin Choi Chanhun Park Seung Jun Baek DiffM 80 2 0 22 Mar 2025
What's Producible May Not Be Reachable: Measuring the Steerability of Generative Models Keyon Vafa Sarah Bentley Jon M. Kleinberg S. Mullainathan 70 2 0 21 Mar 2025
PRIMAL: Physically Reactive and Interactive Motor Model for Avatar Learning Yan Zhang Yao Feng Alpár Cseke Nitin Saini Nathan Bajandas Nicolas Heron M. Black DiffM VGen 116 1 0 21 Mar 2025
Enabling Versatile Controls for Video Diffusion Models Xu Zhang Hao Zhou Haoming Qin Xiaobin Lu Jiaxing Yan Guanzhong Wang Zeyu Chen Yi Liu DiffM VGen 96 1 0 21 Mar 2025
R2LDM: An Efficient 4D Radar Super-Resolution Framework Leveraging Diffusion Model Boyuan Zheng Shouyi Lu Renbo Huang Minqing Huang Fan Lu Wei Tian Guirong Zhuo Lu Xiong 111 1 0 21 Mar 2025
Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models Davide Berasi Matteo Farina Massimiliano Mancini Elisa Ricci Nicola Strisciuglio CoGe 109 0 0 21 Mar 2025
DermDiff: Generative Diffusion Model for Mitigating Racial Biases in Dermatology Diagnosis Nusrat Munia Abdullah-Al-Zubaer Imran MedIm 122 1 0 21 Mar 2025
AnimatePainter: A Self-Supervised Rendering Framework for Reconstructing Painting Process J. Hu Shuyong Gao Qianyu Guo Yan Wang Qishan Wang Yuang Feng Wenqiang Zhang DiffM VGen 85 0 0 21 Mar 2025
ARFlow: Human Action-Reaction Flow Matching with Physical Guidance Wentao Jiang Jingya Wang Haotao Lu Kaiyang Ji Baoxiong Jia Siyuan Huang 89 0 0 21 Mar 2025
Scale-wise Distillation of Diffusion Models Nikita Starodubcev Denis Kuznedelev Artem Babenko Dmitry Baranchuk DiffM 93 0 0 20 Mar 2025
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance Quanhao Li Zhen Xing Rui Wang Hui Zhang Qi Dai Zuxuan Wu VGen 118 2 0 20 Mar 2025
PoseTraj: Pose-Aware Trajectory Control in Video Diffusion Longbin Ji Lei Zhong Pengfei Wei Changjian Li DiffM VGen 87 0 0 20 Mar 2025
Bezier Distillation Ling Feng SK Yang 51 0 0 20 Mar 2025
LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images Leyang Wang Joice Lin DiffM 116 0 0 20 Mar 2025
FreeFlux: Understanding and Exploiting Layer-Specific Roles in RoPE-Based MMDiT for Versatile Image Editing Tianyi Wei Yifan Zhou DongDong Chen Xingang Pan 131 1 0 20 Mar 2025
Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization Feifei Li Mi Zhang Yiming Sun Min Yang DiffM 89 2 0 19 Mar 2025
Efficient Personalization of Quantized Diffusion Model without Backpropagation H. Seo Wongi Jeong Kyungryeol Lee Se Young Chun DiffM MQ 139 0 0 19 Mar 2025
Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU Àlex Pujol Vidal Sergio Escalera Kamal Nasrollahi T. Moeslund MU 151 0 0 19 Mar 2025
How to Train Your Dragon: Automatic Diffusion-Based Rigging for Characters with Diverse Topologies Zeqi Gu Difan Liu Timothy Langlois Matthew Fisher Abe Davis DiffM 3DH 113 0 0 19 Mar 2025
Visual Persona: Foundation Model for Full-Body Human Customization Jisu Nam Soowon Son Zhan Xu Jing Shi Difan Liu Feng Liu Aashish Misraa Seungryong Kim Yang Zhou DiffM 88 2 0 19 Mar 2025
CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models Yuyang Xue Edward Moroshko Feng Chen Jingyu Sun Steven McDonagh Sotirios A. Tsaftaris 115 2 0 18 Mar 2025
Diffusion-based Facial Aesthetics Enhancement with 3D Structure Guidance Lisha Li Jingwen Hou Weide Liu Yuming Fang Jiebin Yan DiffM 81 1 0 18 Mar 2025
DPImageBench: A Unified Benchmark for Differentially Private Image Synthesis Chen Gong Kecen Li Zinan Lin Tianhao Wang 215 5 0 18 Mar 2025
The Power of Context: How Multimodality Improves Image Super-Resolution Kangfu Mei Hossein Talebi Mojtaba Ardakani Vishal M. Patel P. Milanfar M. Delbracio DiffM 124 2 0 18 Mar 2025
Adams Bashforth Moulton Solver for Inversion and Editing in Rectified Flow Yongjia Ma Donglin Di Xuan Liu Xiaokai Chen Lei Fan Wei Chen Tonghua Su 76 1 0 17 Mar 2025
Edit Transfer: Learning Image Editing via Vision In-Context Relations Lan Chen Qi Mao Yuchao Gu Mike Zheng Shou 154 4 0 17 Mar 2025
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark Forouzan Fallah Maitreya Patel Agneet Chatterjee Vlad I. Morariu Chitta Baral Yezhou Yang CoGe 116 1 0 17 Mar 2025
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing Yaowei Li Lingen Li Zhaoyang Zhang Xiaoyu Li Guangzhi Wang Hongxiang Li Xiaodong Cun Ying Shan Yuexian Zou DiffM 107 2 0 17 Mar 2025
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models Dewei Zhou Mingwei Li Zongxin Yang Yi Yang 180 3 0 17 Mar 2025
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing Tsu-Jui Fu Yusu Qian Chen Chen Wenze Hu Zhe Gan Yue Yang 221 2 0 16 Mar 2025
EQ-TAA: Equivariant Traffic Accident Anticipation via Diffusion-Based Accident Video Synthesis Jianwu Fang Lei-lei Li Zhedong Zheng Hongkai Yu Jianru Xue Zhengguo Li Tat-Seng Chua 16 0 0 16 Mar 2025
VRsketch2Gaussian: 3D VR Sketch Guided 3D Object Generation with Gaussian Splatting Songen Gu Haoxuan Song Binjie Liu Qian Yu Sanyi Zhang Haiyong Jiang Jin Huang Feng Tian 3DGS 3DV 102 0 0 16 Mar 2025
Personalize Anything for Free with Diffusion Transformer Haoran Feng Zehuan Huang Lin Li Hairong Lv Lu Sheng DiffM 152 5 0 16 Mar 2025
BalancedDPO: Adaptive Multi-Metric Alignment Dipesh Tamboli Souradip Chakraborty Aditya Malusare B. Banerjee Amrit Singh Bedi Vaneet Aggarwal EGVM 105 1 0 16 Mar 2025
Threefold model for AI Readiness: A Case Study with Finnish Healthcare SMEs Mohammed Alnajjar Khalid Alnajjar Mika Hämäläinen 51 0 0 15 Mar 2025
LIAM: Multimodal Transformer for Language Instructions, Images, Actions and Semantic Maps Yihao Wang Raphael Memmesheimer Sven Behnke LM&Ro 90 0 0 15 Mar 2025
CHOrD: Generation of Collision-Free, House-Scale, and Organized Digital Twins for 3D Indoor Scenes with Controllable Floor Plans and Optimal Layouts Chong Su Yingbin Fu Zheyuan Hu Jing Yang Param Hanji Shaojun Wang Xuan Zhao Cengiz Öztireli Fangcheng Zhong 3DV 106 1 0 15 Mar 2025
Cross-Modal Diffusion for Biomechanical Dynamical Systems Through Local Manifold Alignment S. Dey Sarath Ravindran Nair DiffM 110 0 0 15 Mar 2025
Noise Synthesis for Low-Light Image Denoising with Diffusion Models Liying Lu Raphaël Achddou Sabine Süsstrunk DiffM 80 0 0 14 Mar 2025
Safe Vision-Language Models via Unsafe Weights Manipulation Moreno DÍncà E. Peruzzo Xingqian Xu Humphrey Shi N. Sebe Massimiliano Mancini MU 116 0 0 14 Mar 2025
DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation Hongbin Lin Zilu Guo Yiming Zhang Shuaicheng Niu Yafeng Li Ruiyi Zhang Shuguang Cui Zhen Li DiffM 79 1 0 14 Mar 2025
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models Yixuan Zhang Qing Chang Yuxi Wang Guang Chen Zhenru Zhang Junran Peng 125 0 0 14 Mar 2025
Upcycling Text-to-Image Diffusion Models for Multi-Task Capabilities Ruchika Chavhan Abhinav Mehrotra Malcolm Chadwick Alberto Gil C. P. Ramos Luca Morreale Mehdi Noroozi Sourav Bhattacharya 91 0 0 14 Mar 2025
Safe-VAR: Safe Visual Autoregressive Model for Text-to-Image Generative Watermarking Ziyi Wang Songbai Tan Gang Xu Xuerui Qiu Hongbin Xu Xin Meng Ming Li Fei Richard Yu WIGM 126 0 0 14 Mar 2025