Hierarchical Text-Conditional Image Generation with CLIP Latents

13 April 2022

Papers citing "Hierarchical Text-Conditional Image Generation with CLIP Latents"

50 / 4,897 papers shown

Title
SOEDiff: Efficient Distillation for Small Object Editing Yiming Wu Qihe Pan Zhen Zhao Zicheng Wang Sifan Long Ronghua Liang DiffM 176 0 0 03 Jan 2025
DuMo: Dual Encoder Modulation Network for Precise Concept Erasure Feng Han Kai-xiang Chen Chao Gong Zhipeng Wei Jingjing Chen Yu-Gang Jiang 89 3 0 03 Jan 2025
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning Jianjie Luo Jingwen Chen Yehao Li Yingwei Pan Jianlin Feng Hongyang Chao Ting Yao DiffM VLM 139 0 0 03 Jan 2025
Adapting to Unknown Low-Dimensional Structures in Score-Based Diffusion Models Gen Li Yuling Yan DiffM 117 23 0 03 Jan 2025
Text2midi: Generating Symbolic Music from Captions Keshav Bhandari Abhinaba Roy Kyra Wang Geeta Puri Simon Colton Dorien Herremans 158 6 0 03 Jan 2025
TexAVi: Generating Stereoscopic VR Video Clips from Text Descriptions Vriksha Srihari R. Bhavya Shruti Jayaraman V. Mary Anita Rajam DiffM VGen 128 0 0 02 Jan 2025
Grid Diffusion Models for Text-to-Video Generation Taegyeong Lee Soyeong Kwon Taehwan Kim 155 8 0 31 Dec 2024
MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation Haoyu Zheng Wenqiao Zhang Zheqi Lv Yu Zhong Yang Dai ... Yongliang Shen Juncheng Billy Li Dongping Zhang Siliang Tang Yueting Zhuang DiffM VGen 112 0 0 31 Dec 2024
AdaDiff: Adaptive Step Selection for Fast Diffusion Models Hui Zhang Zuxuan Wu Zhen Xing Jie Shao Yu-Gang Jiang 147 13 0 31 Dec 2024
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation Guanglei Yang Rui Tian Yongqiang Zhang Zhun Zhong Yongqiang Li Wangmeng Zuo 94 0 0 31 Dec 2024
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving Jiehui Huang Xiao Dong Wenhui Song Zheng Chong Zhiqiang Zhang ... Long Chen Hanhui Li Yiqiang Yan Shengcai Liao Xiaodan Liang DiffM 84 23 0 31 Dec 2024
Is Your Image a Good Storyteller? Xiujie Song Xiaoyi Pang Haifeng Tang Mengyue Wu Kenny Q. Zhu 101 0 0 29 Dec 2024
Provable Uncertainty Decomposition via Higher-Order Calibration Gustaf Ahdritz Aravind Gollakota Parikshit Gopalan Charlotte Peale Udi Wieder UD UQCV PER 102 1 0 25 Dec 2024
Protective Perturbations against Unauthorized Data Usage in Diffusion-based Image Generation Sen Peng Jijia Yang Mingyue Wang Jianfei He Xiaohua Jia DiffM 81 1 0 25 Dec 2024
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World Yanheng He Jiahe Jin Shijie Xia Jiadi Su Runze Fan Haoyang Zou Xiangkun Hu Pengfei Liu LLMAG 70 4 0 23 Dec 2024
CharGen: High Accurate Character-Level Visual Text Generation Model with MultiModal Encoder Lichen Ma Tiezhu Yue Pei Fu Yujie Zhong Kai Zhou Xiaoming Wei Jie Hu DiffM 126 2 0 23 Dec 2024
Enhancing Long Video Generation Consistency without Tuning Xingyao Li Fengzhuo Zhang Jiachun Pan Yunlong Hou Vincent Y. F. Tan Zhuoran Yang DiffM VGen 82 0 0 23 Dec 2024
D-Judge: How Far Are We? Evaluating the Discrepancies Between AI-synthesized Images and Natural Images through Multimodal Guidance Renyang Liu Ziyu Lyu Wei Zhou See-Kiong Ng EGVM 85 0 0 23 Dec 2024
RealisID: Scale-Robust and Fine-Controllable Identity Customization via Local and Global Complementation Zhaoyang Sun Fei Du Weihua Chen Fan Wang Yaxiong Chen Yi Rong Shengwu Xiong DiffM 126 1 0 22 Dec 2024
From Creation to Curriculum: Examining the role of generative AI in Arts Universities Atticus Sims 167 1 0 21 Dec 2024
Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance Beiyuan Zhang Yue Ma Chunlei Fu Xinyang Song Zhenan Sun Ziqiang Li DiffM VGen 127 5 0 21 Dec 2024
Mapping the Mind of an Instruction-based Image Editing using SMILE Zeinab Dehghani Koorosh Aslansefat Adil Khan Adín Ramirez Rivera Franky George Muhammad Khalid DiffM 170 1 0 20 Dec 2024
Reframing Image Difference Captioning with BLIP2IDC and Synthetic Augmentation Gautier Evennou Antoine Chaffin Vivien Chappelier Ewa Kijak DiffM 125 0 0 20 Dec 2024
Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance Hyunsoo Lee Minsoo Kang Bohyung Han 110 1 0 20 Dec 2024
AI-generated Image Quality Assessment in Visual Communication Yu Tian Yixuan Li Baoliang Chen Hanwei Zhu Shiqi Wang Sam Kwong 119 0 0 20 Dec 2024
GCA-3D: Towards Generalized and Consistent Domain Adaptation of 3D Generators Hengjia Li Yang Liu Yibo Zhao Haoran Cheng Yang Yang ... Qibo Qiu Boxi Wu Tu Zheng Zheng Yang D. Cai 149 0 0 20 Dec 2024
Dataset Augmentation by Mixing Visual Concepts Abdullah Al Rahat Hemanth Venkateswara DiffM 116 0 0 19 Dec 2024
Next Patch Prediction for Autoregressive Visual Generation Yatian Pang Peng Jin Shuo Yang Bin Lin Bin Zhu ... Liuhan Chen Francis E. H. Tay Ser-Nam Lim Harry Yang Li Yuan 253 10 0 19 Dec 2024
Joint Co-Speech Gesture and Expressive Talking Face Generation using Diffusion with Adapters S. Hogue Chenxu Zhang Yapeng Tian Xiaohu Guo DiffM 132 0 0 18 Dec 2024
What makes a good metric? Evaluating automatic metrics for text-to-image consistency Candace Ross Melissa Hall Adriana Romero Soriano Adina Williams 162 4 0 18 Dec 2024
Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model Yuqiu Liu Jingxuan Xu Mauricio Soroco Yunchao Wei Wuyang Chen AI4CE 144 2 0 18 Dec 2024
Self-control: A Better Conditional Mechanism for Masked Autoregressive Model Qiaoying Qu Shiyu Shen DiffM 137 0 0 18 Dec 2024
F-Bench: Rethinking Human Preference Evaluation Metrics for Benchmarking Face Generation, Customization, and Restoration Lu Liu Huiyu Duan Qiang Hu Liu Yang Chunlei Cai Tianxiao Ye Huayu Liu Xiaoyun Zhang Guangtao Zhai EGVM 158 1 0 17 Dec 2024
Prompt Augmentation for Self-supervised Text-guided Image Manipulation Rumeysa Bodur Binod Bhattarai Tae-Kyun Kim DiffM 163 3 0 17 Dec 2024
Optimized two-stage AI-based Neural Decoding for Enhanced Visual Stimulus Reconstruction from fMRI Data Lorenzo Veronese Andrea Moglia Luca Mainardi Pietro Cerveri DiffM 128 0 0 17 Dec 2024
Unsupervised Region-Based Image Editing of Denoising Diffusion Models Zechao Li Yue Song R. Tao Xiaohong Jia Yao Zhao Wei Wang DiffM 137 1 0 17 Dec 2024
Efficient Scaling of Diffusion Transformers for Text-to-Image Generation Hao Li Shamit Lal Zhiheng Li Yusheng Xie Ying Wang ... R. Manmatha Zhuowen Tu Stefano Ermon Stefano Soatto A. Swaminathan 139 1 0 16 Dec 2024
OmniPrism: Learning Disentangled Visual Concept for Image Generation Yangyang Li Daqing Liu Wu Liu Allen He Xinchen Liu Yongdong Zhang Guoqing Jin DiffM CoGe 93 0 0 16 Dec 2024
IDEA-Bench: How Far are Generative Models from Professional Designing? C. Liang Lianghua Huang Jingwu Fang Huanzhang Dou Wei Wang Zhi-Fan Wu Yupeng Shi Junge Zhang Xin Zhao Yu Liu 3DV 142 1 0 16 Dec 2024
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors Xiaokun Sun Zeyu Cai Zhenyu Zhang Ying Tai Jian Yang 133 0 0 16 Dec 2024
Can video generation replace cinematographers? Research on the cinematic language of generated video Xuelong Li Kai WU Siyi Yang YiZhan Qu Guohua. Zhang ... Mingliang Xiong Hao Deng Qingwen Liu Gang Li Bin He VGen DiffM 173 1 0 16 Dec 2024
EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting Dong In Lee Hyeongcheol Park Jiyoung Seo Eunbyung Park Hyunje Park Ha Dam Baek Shin Sangheon Sangmin kim Sangpil Kim 3DGS 207 3 0 16 Dec 2024
Detecting Daily Living Gait Amid Huntington's Disease Chorea using a Foundation Deep Learning Model Dafna Schwartz Lori Quinn Nora E. Fritz Lisa M. Muratori Jeffery M. Hausdorff Ran Gilad Bachrach 106 0 0 15 Dec 2024
Dual-Schedule Inversion: Training- and Tuning-Free Inversion for Real Image Editing Jiancheng Huang Yi Huang Jianzhuang Liu Donghao Zhou Yang Liu Shifeng Chen DiffM 156 2 0 15 Dec 2024
SHMT: Self-supervised Hierarchical Makeup Transfer via Latent Diffusion Models Zhaoyang Sun Shengwu Xiong Yaxiong Chen Fei Du Weihua Chen Fan Wang Yi Rong DiffM 114 1 0 15 Dec 2024
Diffusion Model from Scratch Wang Zhen Dong Yunyun DiffM 106 0 0 14 Dec 2024
Video Diffusion Transformers are In-Context Learners Zhengcong Fei Di Qiu Changqian Yu Debang Li Mingyuan Fan VGen DiffM 396 3 0 14 Dec 2024
Low-Biased General Annotated Dataset Generation Dengyang Jiang Haoyu Wang Lei Zhang Wei Wei Guang Dai Mengmeng Wang Jiangming Wang Yanning Zhang 76 0 0 14 Dec 2024
Aspen Open Jets: Unlocking LHC Data for Foundation Models in Particle Physics Oz Amram Luca Anzalone Joschka Birk D. Faroughy Anna Hallin Gregor Kasieczka Michael Krämer Ian Pang H. Reyes-González David Shih AI4CE 128 7 0 13 Dec 2024
Video Seal: Open and Efficient Video Watermarking Pierre Fernandez Hady ElSahar I. Zeki Yalniz Alexandre Mourachko VLM 159 8 0 12 Dec 2024