Hierarchical Text-Conditional Image Generation with CLIP Latents

13 April 2022

Papers citing "Hierarchical Text-Conditional Image Generation with CLIP Latents"

50 / 4,897 papers shown

Title
SEED: Towards More Accurate Semantic Evaluation for Visual Brain Decoding Juhyeon Park P. Y. Kim Jiook Cha Shinjae Yoo Taesup Moon 95 0 0 09 Mar 2025
Color Alignment in Diffusion Ka Chun Shum Binh-Son Hua Duc Thanh Nguyen Sai-Kit Yeung 78 0 0 09 Mar 2025
NaviDet: Efficient Input-level Backdoor Detection on Text-to-Image Synthesis via Neuron Activation Variation Shengfang Zhai Jiajun Li Yue Liu Huanran Chen Zhihua Tian Wenjie Qu Qingni Shen Ruoxi Jia Yinpeng Dong Jiaheng Zhang AAML 101 0 0 09 Mar 2025
PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation Yanjie Pan Qu He Zhengkai Jiang P. Xu Chaoyi Wang ... Yun Cao Zhenye Gan M. Chi Bo Peng Yun Wang DiffM 93 3 0 09 Mar 2025
Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation Amir Mohammad Izadi Seyed Mohammad Hadi Hosseini Soroush Vafaie Tabar Ali Abdollahi Armin Saghafian M. Baghshah EGVM 86 1 0 09 Mar 2025
M $^3$ amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification Mingxiang Cao Weiying Xie Xin Zhang Jiaqing Zhang Kai Jiang Jie Lei Yunsong Li Mamba 150 0 0 09 Mar 2025
Synthetic Data Generation for Minimum-Exposure Navigation in a Time-Varying Environment using Generative AI Models Nachiket U. Bapat Randy C. Paffenroth Raghvendra V. Cowlagi 72 0 0 09 Mar 2025
X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation Jian Ma Qirong Peng Xu Guo Chen Chen H. Lu Zhenyu Yang VLM 152 1 0 08 Mar 2025
Boosting the Local Invariance for Better Adversarial Transferability Bohan Liu Xiaosen Wang AAML 157 0 0 08 Mar 2025
PTDiffusion: Free Lunch for Generating Optical Illusion Hidden Pictures with Phase-Transferred Diffusion Model Xiang Gao Shuai Yang Jiaying Liu DiffM 142 0 0 08 Mar 2025
AIM-Fair: Advancing Algorithmic Fairness via Selectively Fine-Tuning Biased Models with Contextual Synthetic Data Zengqun Zhao Ziquan Liu Yu Cao Shaogang Gong Ioannis Patras 100 0 0 07 Mar 2025
Accelerating db-A* for Kinodynamic Motion Planning Using Diffusion Julius Franke A. Moldagalieva Pia Hanfeld Wolfgang Hönig DiffM 93 0 0 07 Mar 2025
Frequency Autoregressive Image Generation with Continuous Tokens Hu Yu Hao Luo Hangjie Yuan Yu Rong Feng Zhao VGen 94 10 0 07 Mar 2025
ControlFill: Spatially Adjustable Image Inpainting from Prompt Learning Boseong Jeon 90 0 0 06 Mar 2025
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion Ziyi Yang Fanqi Wan Longguang Zhong Canbin Huang Guosheng Liang Xiaojun Quan MoMe 140 2 0 06 Mar 2025
scDD: Latent Codes Based scRNA-seq Dataset Distillation with Foundation Model Knowledge Zhen Yu Jianan Han Yang Liu Qingchao Chen 97 0 0 06 Mar 2025
Energy-Guided Optimization for Personalized Image Editing with Pretrained Text-to-Image Diffusion Models Rui Jiang Xinghe Fu Guangcong Zheng Teng Li Taiping Yao Xi Li DiffM 98 1 0 06 Mar 2025
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles Rui Zhao Weijia Mao Mike Zheng Shou 107 1 0 05 Mar 2025
WarmFed: Federated Learning with Warm-Start for Globalization and Personalization Via Personalized Diffusion Models Tao Feng Jie Zhang Xiangjian Li Rong Huang Huashan Liu Zhijie Wang FedML 96 0 0 05 Mar 2025
MindSimulator: Exploring Brain Concept Localization via Synthetic FMRI Guangyin Bao Qi Zhang Z. Gong Zhuojia Wu Duoqian Miao 101 1 0 04 Mar 2025
LangGas: Introducing Language in Selective Zero-Shot Background Subtraction for Semi-Transparent Gas Leak Detection with a New Dataset Wenqi Guo Yiyang Du Shan Du 161 2 0 04 Mar 2025
CacheQuant: Comprehensively Accelerated Diffusion Models Xuewen Liu Zhikai Li Qingyi Gu DiffM 69 0 0 03 Mar 2025
MINT: Multi-modal Chain of Thought in Unified Generative Models for Enhanced Image Generation Yi Wang Mushui Liu Wanggui He Longxiang Zhang Z. Huang ... Haoyang Li Weilong Dai Mingli Song Jie Song Hao Jiang MLLM MoE LRM 124 9 0 03 Mar 2025
Interactive Gadolinium-Free MRI Synthesis: A Transformer with Localization Prompt Learning Linhao Li Changhui Su Yu Guo Huimao Zhang Dong Liang K. Shang MedIm 61 0 0 03 Mar 2025
Fine-Grained Controllable Apparel Showcase Image Generation via Garment-Centric Outpainting Rong Zhang Jun Wang Zhiwen Zuo Jianfeng Dong W. Li Chi-Yin Wang Wenyuan Xu Xun Wang DiffM 93 0 0 03 Mar 2025
WeGen: A Unified Model for Interactive Multimodal Generation as We Chat Zhipeng Huang Shaobin Zhuang Canmiao Fu Binxin Yang Ying Zhang Chong Sun Zhizheng Zhang Yali Wang Chen Li Zheng-Jun Zha DiffM 119 3 0 03 Mar 2025
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation Jiantao Lin Xin Yang Meixi Chen Yingjie Xu D. Yan Leyi Wu Xinli Xu Lie Xu Shunsi Zhang Ying-Cong Chen 127 2 0 03 Mar 2025
One-shot In-context Part Segmentation Zhenqi Dai Ting Liu Xinyu Zhang Y. X. Wei Yanning Zhang VLM 174 1 0 03 Mar 2025
FaceShot: Bring Any Character into Life Junyao Gao Yanan Sun Fei Shen Xin Jiang Zhening Xing Kai-xiang Chen Cairong Zhao CVBM 3DH 104 1 0 02 Mar 2025
Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think Jie Tian Xiaoye Qu Zhenyi Lu Xiaoye Qu Sichen Liu Yu Cheng DiffM VGen 81 4 0 02 Mar 2025
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations Ziyang Zhang Yang Yu Yucheng Chen Xulei Yang S. Yeo MedIm 176 2 0 02 Mar 2025
Zero-Shot Head Swapping in Real-World Scenarios S. Jeong Taewoong Kang Hyojin Jang Jaegul Choo 94 0 0 02 Mar 2025
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning Shashank Gupta Chaitanya Ahuja Tsung-Yu Lin Sreya Dutta Roy Harrie Oosterhuis Maarten de Rijke Satya Narayan Shukla 117 2 0 02 Mar 2025
Periodic Materials Generation using Text-Guided Joint Diffusion Model Kishalay Das Subhojyoti Khastagir Pawan Goyal Seung-Cheol Lee S. Bhattacharjee Niloy Ganguly DiffM 61 2 0 01 Mar 2025
Advancing AI-Powered Medical Image Synthesis: Insights from MedVQA-GI Challenge Using CLIP, Fine-Tuned Stable Diffusion, and Dream-Booth + LoRA Ojonugwa Oluwafemi Ejiga Peter Md Mahmudur Rahman Fahmi Khalifa DiffM MedIm 92 1 0 28 Feb 2025
Tight Inversion: Image-Conditioned Inversion for Real Image Editing Edo Kadosh Nir Goren Or Patashnik Daniel Garibi Daniel Cohen-Or DiffM 116 0 0 27 Feb 2025
$MFSR: Multi-fractal Feature for Super-resolution Reconstruction with Fine Details Recovery$ MFSR: Multi-fractal Feature for Super-resolution Reconstruction with Fine Details Recovery Lianping Yang Peng Jiao Jinshan Pan Hegui Zhu Su Guo 69 0 0 27 Feb 2025
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think L. Chen S. Bai Wenhao Chai Weichu Xie Haozhe Zhao Leon Vinci Junyang Lin Baobao Chang DiffM 150 8 0 27 Feb 2025
QPM: Discrete Optimization for Globally Interpretable Image Classification Thomas Norrenbrock Timo Kaiser Sovan Biswas R. Manuvinakurike Bodo Rosenhahn 149 0 0 27 Feb 2025
Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation Zhi Cen Huaijin Pi Sida Peng Qing Shuai Yujun Shen Hujun Bao Xiaowei Zhou Ruizhen Hu VGen OffRL 135 3 0 27 Feb 2025
BEVDiffuser: Plug-and-Play Diffusion Model for BEV Denoising with Ground-Truth Guidance Xin Ye Burhaneddin Yaman Sheng Cheng Feng Tao Abhirup Mallik Liu Ren DiffM 117 2 0 27 Feb 2025
Improved YOLOv12 with LLM-Generated Synthetic Data for Enhanced Apple Detection and Benchmarking Against YOLOv11 and YOLOv10 Ranjan Sapkota Manoj Karkee 95 5 0 26 Feb 2025
Optimal Stochastic Trace Estimation in Generative Modeling Xinyang Liu Hengrong Du Wei Deng Ruqi Zhang AI4TS 98 0 0 26 Feb 2025
Intent Tagging: Exploring Micro-Prompting Interactions for Supporting Granular Human-GenAI Co-Creation Workflows Frederic Gmeiner Nicolai Marquardt Michael Bentley Hugo Romat M. Pahud ... Asta Roseway Nikolas Martelaro Kenneth Holstein K. Hinckley N. Riche 79 1 0 26 Feb 2025
Diffusion-based Planning with Learned Viability Filters Nicholas Ioannidis Daniele Reda S. Cohan M. van de Panne 119 0 0 26 Feb 2025
On the Interpolation Effect of Score Smoothing Zhengdao Chen DiffM 148 1 0 26 Feb 2025
Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training Botao Ye Sifei Liu Xueting Li Marc Pollefeys Ming-Hsuan Yang 81 0 0 25 Feb 2025
FairGen: Controlling Sensitive Attributes for Fair Generations in Diffusion Models via Adaptive Latent Guidance Mintong Kang Vinayshekhar Bannihatti Kumar Shamik Roy Abhishek Kumar Sopan Khosla Balakrishnan Narayanaswamy Rashmi Gangadharaiah 77 0 0 25 Feb 2025
CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification Mingkun Zhang Keping Bi Wei Chen Jiafeng Guo Xueqi Cheng BDL VLM 170 2 0 25 Feb 2025
Bayesian Optimization for Controlled Image Editing via LLMs Chengkun Cai Haoliang Liu Xu Zhao Zhongyu Jiang Tianfang Zhang Zongkai Wu Lei Li Lei Li Lei Li BDL OffRL 168 2 0 25 Feb 2025