Hierarchical Text-Conditional Image Generation with CLIP Latents

13 April 2022

Papers citing "Hierarchical Text-Conditional Image Generation with CLIP Latents"

50 / 4,897 papers shown

Title
Aligning Multimodal Representations through an Information Bottleneck Antonio Almudévar José Miguel Hernández-Lobato Sameer Khurana R. Marxer Alfonso Ortega SSL 99 0 0 05 Jun 2025
Gen-n-Val: Agentic Image Data Generation and Validation Jing-En Huang I-Sheng Fang Tzuhsuan Huang Chih-Yu Wang Jun-Cheng Chen VLM 110 0 0 05 Jun 2025
Resolving Task Objective Conflicts in Unified Multimodal Understanding and Generation via Task-Aware Mixture-of-Experts Jiaxing Zhang Xinyi Zeng Hao Tang 82 0 0 04 Jun 2025
Learning Monotonic Probabilities with a Generative Cost Model Yongxiang Tang Yanhua Cheng Xiaocheng Liu Chenchen Jiao Yanxiang Zeng Ning Luo Pengjia Yuan Xialong Liu Peng Jiang 59 0 0 04 Jun 2025
How Far Are We from Predicting Missing Modalities with Foundation Models? Guanzhou Ke Yi Xie Xiaoli Wang Guoqing Chao Bo Wang Shengfeng He VLM 97 0 0 04 Jun 2025
RAID: A Dataset for Testing the Adversarial Robustness of AI-Generated Image Detectors Hicham Eddoubi Jonas Ricker Federico Cocchi Lorenzo Baraldi Angelo Sotgiu ... Marcella Cornia Lorenzo Baraldi Asja Fischer Rita Cucchiara Battista Biggio AAML 141 0 0 04 Jun 2025
HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation Hermann Kumbong Xian Liu Tsung-Yi Lin Ming-Yu Liu Xihui Liu Ziwei Liu Daniel Y. Fu Christopher Ré David W. Romero DiffM 43 0 0 04 Jun 2025
Auto-Labeling Data for Object Detection Brent A. Griffin Manushree Gangwar Jacob Sela Jason J. Corso ObjD VLM 68 0 0 03 Jun 2025
EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models Mingzhe Li Gehao Zhang Zhenting Wang Shiqing Ma Siqi Pan Richard Cartwright Juan Zhai DiffM 50 0 0 03 Jun 2025
FlexPainter: Flexible and Multi-View Consistent Texture Generation Dongyu Yan Leyi Wu Jiantao Lin Luozhou Wang Tianshuo Xu Zhifei Chen Zhen Yang Lie Xu Shunsi Zhang Yingcong Chen DiffM 60 0 0 03 Jun 2025
Native-Resolution Image Synthesis Zidong Wang Lei Bai Xiangyu Yue Wanli Ouyang Yiyuan Zhang 69 0 0 03 Jun 2025
Urban Visibility Hotspots: Quantifying Building Vertex Visibility from Connected Vehicle Trajectories using Spatial Indexing Artur Grigorev Adriana-Simona Mihaita 33 0 0 03 Jun 2025
Diff2Flow: Training Flow Matching Models via Diffusion Model Alignment Johannes Schusterbauer Ming Gui Frank Fundel Bjorn Ommer 20 0 0 02 Jun 2025
TaxaDiffusion: Progressively Trained Diffusion Model for Fine-Grained Species Generation Amin Karimi Monsefi Mridul Khurana R. Ramnath Anuj Karpatne Wei-Lun Chao Cheng Zhang 51 0 0 02 Jun 2025
Ultra-High-Resolution Image Synthesis: Data, Method and Evaluation Jinjin Zhang Qiuyu Huang Junjie Liu Xiefan Guo Di Huang 48 0 0 02 Jun 2025
Efficiency without Compromise: CLIP-aided Text-to-Image GANs with Increased Diversity Yuya Kobayashi Yuhta Takida Takashi Shibuya Yuki Mitsufuji DiffM 52 0 0 02 Jun 2025
IMAGHarmony: Controllable Image Editing with Consistent Object Quantity and Layout Fei Shen Xiaoyu Du Yutong Gao Jian Yu Yushe Cao Xing Lei Jinhui Tang DiffM 56 0 0 02 Jun 2025
DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion Geunmin Hwang Hyun-kyu Ko Younghyun Kim S. W. Lee Eunbyung Park VGen 50 0 0 02 Jun 2025
WorldExplorer: Towards Generating Fully Navigable 3D Scenes Manuel-Andreas Schneider Lukas Höllein Matthias Nießner VGen 46 0 0 02 Jun 2025
Self-supervised ControlNet with Spatio-Temporal Mamba for Real-world Video Super-resolution Shijun Shi Jing Xu Lijing Lu Zhihang Li Kai Hu 35 0 0 01 Jun 2025
Multimodal Generative AI with Autoregressive LLMs for Human Motion Understanding and Generation: A Way Forward Muhammad Islam Tao Huang Euijoon Ahn Usman Naseem VGen 36 0 0 31 May 2025
un $^2$ CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP Yinqi Li Jiahe Zhao Hong Chang Ruibing Hou Shiguang Shan Xilin Chen CLIP VLM 36 0 0 30 May 2025
AdaHuman: Animatable Detailed 3D Human Generation with Compositional Multiview Diffusion Yangyi Huang Ye Yuan Xueting Li Jan Kautz Umar Iqbal 36 0 0 30 May 2025
Generative AI for Urban Design: A Stepwise Approach Integrating Human Expertise with Multimodal Diffusion Models Mingyi He Yuebing Liang Shenhao Wang Yunhan Zheng Qingyi Wang Dingyi Zhuang Li Tian Jinhua Zhao AI4CE 20 0 0 30 May 2025
A Mathematical Perspective On Contrastive Learning Ricardo Baptista Andrew Stuart S. D. Tran 15 0 0 30 May 2025
InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing Jinlu Zhang Yixin Chen Zan Wang Jie Yang Yizhou Wang Siyuan Huang 31 1 0 30 May 2025
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers Yusuf Dalva Hidir Yesiltepe Pinar Yanardag OffRL 78 0 0 29 May 2025
FSL-SAGE: Accelerating Federated Split Learning via Smashed Activation Gradient Estimation Srijith Nair Michael Lin Amirreza Talebi Peizhong Ju Elizabeth S. Bentley Jia Liu FedML 26 0 0 29 May 2025
A Survey of Generative Categories and Techniques in Multimodal Large Language Models Longzhen Han Awes Mubarak Almas Baimagambetov Nikolaos Polatidis Thar Baker LRM 25 0 0 29 May 2025
Efficiently Access Diffusion Fisher: Within the Outer Product Span Space Fangyikang Wang Hubery Yin Shaobin Zhuang Huminhao Zhu Yinan Li Lei Qian Chao Zhang Hanbin Zhao Hui Qian Chen Li 40 1 0 29 May 2025
GeoMan: Temporally Consistent Human Geometry Estimation using Image-to-Video Diffusion Gwanghyun Kim Xueting Li Ye Yuan Koki Nagano Tianye Li Jan Kautz Se Young Chun Umar Iqbal DiffM 61 0 0 29 May 2025
GenCAD-Self-Repairing: Feasibility Enhancement for 3D CAD Generation Chikaha Tsuji Enrique Flores Medina Harshit Gupta Md Ferdous Alam 43 0 0 29 May 2025
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model Qingyu Shi Jinbin Bai Zhuoran Zhao Wenhao Chai Kaidong Yu ... Shuangyong Song Yunhai Tong Xiangtai Li X. Li Shuicheng Yan 85 2 0 29 May 2025
Score-based Generative Modeling for Conditional Independence Testing Yixin Ren Chenghou Jin Yewei Xia Li Ke Longtao Huang Hui Xue Hao Zhang Jihong Guan S. Kevin Zhou 11 0 0 29 May 2025
Fooling the Watchers: Breaking AIGC Detectors via Semantic Prompt Attacks Run Hao Peng Ying 108 0 0 29 May 2025
From Large AI Models to Agentic AI: A Tutorial on Future Intelligent Communications Feibo Jiang Cunhua Pan Li Dong Kezhi Wang O. Dobre Mérouane Debbah LLMAG AI4TS 172 1 0 28 May 2025
Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion Kewen Chen Xiaobin Hu Wenqi Ren DiffM 47 0 0 28 May 2025
AlignGen: Boosting Personalized Image Generation with Cross-Modality Prior Alignment Yiheng Lin Shifang Zhao Ting Liu Xiaochao Qu Luoqi Liu Yao Zhao Yunchao Wei DiffM 36 0 0 28 May 2025
What Makes for Text to 360-degree Panorama Generation with Stable Diffusion? Jinhong Ni Chang-Bin Zhang Qiang Zhang Jing Zhang MDE 55 1 0 28 May 2025
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model Yifan Chang Yukang Feng Jianwen Sun Jiaxin Ai Chuanhao Li Sizhuo Zhou Kaipeng Zhang EGVM 72 0 0 28 May 2025
DreamBoothDPO: Improving Personalized Generation using Direct Preference Optimization Shamil Ayupov M. Nakhodnov Anastasia Yaschenko Andrey Kuznetsov Aibek Alanov 40 0 0 27 May 2025
Be Decisive: Noise-Induced Layouts for Multi-Subject Generation Omer Dahary Yehonathan Cohen Or Patashnik Kfir Aberman Daniel Cohen-Or DiffM 21 0 0 27 May 2025
OrienText: Surface Oriented Textual Image Generation Shubham Paliwal Arushi Jain Monika Sharma Vikram Jamwal Lovekesh Vig DiffM 777 0 0 27 May 2025
IKMo: Image-Keyframed Motion Generation with Trajectory-Pose Conditioned Motion Diffusion Model Yang Zhao Yan Zhang Xubo Yang VGen 27 0 0 27 May 2025
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models Dar-Yen Chen Hmrishav Bandyopadhyay Kai Zou Yi-Zhe Song 51 0 0 27 May 2025
Can we Debias Social Stereotypes in AI-Generated Images? Examining Text-to-Image Outputs and User Perceptions Saharsh Barve Andy Mao Jiayue Melissa Shi Prerna Juneja Koustuv Saha 25 0 0 27 May 2025
Knowledge-Aligned Counterfactual-Enhancement Diffusion Perception for Unsupervised Cross-Domain Visual Emotion Recognition Wen Yin Yong Wang Guiduo Duan Dongyang Zhang Xin Hu Yuan-Fang Li Tao He 125 0 0 26 May 2025
Progressive Scaling Visual Object Tracking Jack Hong Shilin Yan Zehao Xiao Jiayin Cai Xiaolong Jiang Yao Hu Henghui Ding 73 0 0 26 May 2025
HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment Ming Meng Qi Dong Jiajie Li Zhe Zhu Xingyu Wang Zhaoxin Fan Wei Zhao Wenjun Wu 49 0 0 26 May 2025
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities Jin Wang Yao Lai Aoxue Li Shifeng Zhang Jiacheng Sun Ning Kang Chengyue Wu Zhenguo Li Ping Luo 63 2 0 26 May 2025