Hierarchical Text-Conditional Image Generation with CLIP Latents

13 April 2022

Papers citing "Hierarchical Text-Conditional Image Generation with CLIP Latents"

50 / 4,765 papers shown

Title
SpotlessSplats: Ignoring Distractors in 3D Gaussian Splatting S. Sabour Lily Goli George Kopanas Mark J. Matthews Dmitry Lagun Leonidas Guibas Alec Jacobson David J. Fleet Andrea Tagliasacchi 59 18 0 28 Jun 2024
Wavelets Are All You Need for Autoregressive Image Generation Wael Mattar Idan Levy Nir Sharon S. Dekel 55 3 0 28 Jun 2024
Concept Lens: Visually Analyzing the Consistency of Semantic Manipulation in GANs S. Jeong Mingwei Li Matthew Berger Shusen Liu 72 0 0 28 Jun 2024
Analyzing Quality, Bias, and Performance in Text-to-Image Generative Models Nila Masrourisaadat Nazanin Sedaghatkish Fatemeh Sarshartehrani Edward A. Fox 62 6 0 28 Jun 2024
PopAlign: Population-Level Alignment for Fair Text-to-Image Generation Shufan Li Harkanwar Singh Aditya Grover EGVM 70 2 0 28 Jun 2024
SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs Xin Su Man Luo Kris W Pan Tien Pei Chou Vasudev Lal Phillip Howard 68 4 0 28 Jun 2024
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language Yicheng Chen Xiangtai Li Yining Li Yanhong Zeng Jianzong Wu Xiangyu Zhao Kai Chen VLM DiffM 62 3 0 28 Jun 2024
ScoreFusion: Fusing Score-based Generative Models via Kullback-Leibler Barycenters Hao Liu Junze Tony Ye Ye Jose H. Blanchet DiffM FedML 45 1 0 28 Jun 2024
Understanding Modality Preferences in Search Clarification Leila Tavakoli Giovanni Castiglia Federica Calò Yashar Deldjoo Hamed Zamani Johanne R. Trippas 42 0 0 27 Jun 2024
Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space Core Francisco Park Maya Okawa Andrew Lee Ekdeep Singh Lubana Hidenori Tanaka 64 9 0 27 Jun 2024
From Efficient Multimodal Models to World Models: A Survey Xinji Mai Zeng Tao Junxiong Lin Haoran Wang Yang Chang Yanlan Kang Yan Wang Wenqiang Zhang 48 5 0 27 Jun 2024
Fairness and Bias in Multimodal AI: A Survey Tosin Adewumi Lama Alkhaled Namrata Gurung G. V. Boven Irene Pagliai 84 9 0 27 Jun 2024
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation Yanan Sun Yanchen Liu Yinhao Tang Wenjie Pei Kai Chen DiffM 55 10 0 27 Jun 2024
On Discrete Prompt Optimization for Diffusion Models Ruochen Wang Ting Liu Cho-Jui Hsieh Boqing Gong DiffM 56 7 0 27 Jun 2024
A Sanity Check for AI-generated Image Detection Shilin Yan Ouxiang Li Jiayin Cai Y. Hao Xiaolong Jiang Feng-Long Xie Weidi Xie VLM 72 25 0 27 Jun 2024
MultiDiff: Consistent Novel View Synthesis from a Single Image Norman Muller Katja Schwarz Barbara Roessle Lorenzo Porzi Samuel Rota Buló Matthias Nießner Peter Kontschieder DiffM 73 23 0 26 Jun 2024
ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation Shenghai Yuan Jinfa Huang Yongqi Xu Yaoyang Liu Shaofeng Zhang Yujun Shi Ruijie Zhu Xinhua Cheng Jiebo Luo Li Yuan EGVM VGen 82 34 0 26 Jun 2024
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance Younghyun Kim Geunmin Hwang Junyu Zhang Eunbyung Park 82 7 0 26 Jun 2024
Diffusion Model-Based Video Editing: A Survey Wenhao Sun Rong-Cheng Tu Jingyi Liao Dacheng Tao VGen 71 22 0 26 Jun 2024
Burst Image Super-Resolution with Base Frame Selection Sanghyun Kim Min Jung Lee Woohyeok Kim Deunsol Jung Jaesung Rim Sunghyun Cho Minsu Cho SupR 50 1 0 25 Jun 2024
Generative AI Systems: A Systems-based Perspective on Generative AI Jakub M. Tomczak 57 1 0 25 Jun 2024
SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing Ruihuang Li Liyi Chen Zhengqiang Zhang Varun Jampani Vishal M. Patel Lei Zhang DiffM 57 0 0 25 Jun 2024
Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers Lei Chen Yuan Meng Chen Tang Xinzhu Ma Jingyan Jiang Xin Wang Zhi Wang Wenwu Zhu MQ 53 24 0 25 Jun 2024
Disentangled Motion Modeling for Video Frame Interpolation Jaihyun Lew Jooyoung Choi Chaehun Shin Dahuin Jung Sungroh Yoon VGen DiffM 52 1 0 25 Jun 2024
LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing Aoyang Liu Qingnan Fan Shuai Qin Hong Gu Yansong Tang DiffM 63 1 0 25 Jun 2024
Visualization Literacy of Multimodal Large Language Models: A Comparative Study Zhimin Li Haichao Miao Valerio Pascucci Shusen Liu 69 5 0 24 Jun 2024
Portrait3D: 3D Head Generation from Single In-the-wild Portrait Image Jinkun Hao Junshu Tang Jiangning Zhang Ran Yi Yijia Hong Moran Li Weijian Cao Yating Wang Lizhuang Ma DiffM 54 0 0 24 Jun 2024
Towards a Science Exocortex Kevin G. Yager 80 0 0 24 Jun 2024
Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment Jun Fu Wei Zhou Qiuping Jiang Hantao Liu Guangtao Zhai VLM CLIP 47 8 0 24 Jun 2024
EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models Zhiyu Tan Xiaomeng Yang Luozheng Qin Mengping Yang Cheng Zhang Hao Li 75 7 0 24 Jun 2024
Character-Adapter: Prompt-Guided Region Control for High-Fidelity Character Customization Yuhang Ma Wenting Xu Jiji Tang Qinfeng Jin Rongsheng Zhang Zeng Zhao Changjie Fan Zhipeng Hu 51 6 0 24 Jun 2024
ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance Shuwei Shi Wenbo Li Yuechen Zhang Jingwen He Biao Gong Yinqiang Zheng 57 10 0 24 Jun 2024
Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models Yichen Sun Zhixuan Chu Zhan Qin Kui Ren DiffM 54 0 0 24 Jun 2024
Repairing Catastrophic-Neglect in Text-to-Image Diffusion Models via Attention-Guided Feature Enhancement Zhiyuan Chang Mingyang Li Junjie Wang Yi Liu Qing Wang Yang Liu DiffM 31 1 0 24 Jun 2024
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 88 33 0 24 Jun 2024
MVOC: a training-free multiple video object composition method with diffusion models Wei Wang Yaosen Chen Yuegen Liu Qi Yuan Shubin Yang Yanru Zhang DiffM 76 2 0 22 Jun 2024
Reading Is Believing: Revisiting Language Bottleneck Models for Image Classification Honori Udo Takafumi Koshinaka VLM 48 0 0 22 Jun 2024
Masked Extended Attention for Zero-Shot Virtual Try-On In The Wild Nadav Orzech Yotam Nitzan Ulysse Mizrahi Dov Danon Amit H. Bermano DiffM 42 1 0 21 Jun 2024
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models Jie Ren Kangrui Chen Yingqian Cui Shenglai Zeng Hui Liu Yue Xing Jiliang Tang Lingjuan Lyu 66 2 0 21 Jun 2024
Stylebreeder: Exploring and Democratizing Artistic Styles through Text-to-Image Models Matthew Zheng Enis Simsar Hidir Yesiltepe Federico Tombari Joel Simon Pinar Yanardag 53 3 0 20 Jun 2024
Data-Centric AI in the Age of Large Language Models Xinyi Xu Zhaoxuan Wu Rui Qiao Arun Verma Yao Shu ... Xiaoqiang Lin Wenyang Hu Zhongxiang Dai Pang Wei Koh Bryan Kian Hsiang Low ALM 63 3 0 20 Jun 2024
EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations Jie Ren Yingqian Cui Chen Chen Vikash Sehwag Yue Xing Jiliang Tang Lingjuan Lyu WIGM 42 1 0 20 Jun 2024
Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation Eyal Michaeli Ohad Fried 62 1 0 20 Jun 2024
GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation Baiqi Li Zhiqiu Lin Deepak Pathak Jiayao Li Yixin Fei ... Tiffany Ling Xide Xia Pengchuan Zhang Graham Neubig Deva Ramanan EGVM 57 26 0 19 Jun 2024
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images Rushikesh Zawar Shaurya Dewan Andrew F. Luo Margaret M. Henderson Michael J. Tarr Leila Wehbe VGen CoGe 49 1 0 19 Jun 2024
Leveraging Large Language Models for Patient Engagement: The Power of Conversational AI in Digital Health Bo Wen R. Norel Julia Liu Thaddeus Stappenbeck F. Zulkernine Huamin Chen AI4MH LM&MA 45 2 0 19 Jun 2024
4K4DGen: Panoramic 4D Generation at 4K Resolution Renjie Li Panwang Pan Bangbang Yang Dejia Xu Shijie Zhou Xuanyang Zhang Zeming Li A. Kadambi Zhangyang Wang Zhiwen Fan VGen 66 16 0 19 Jun 2024
Neural Residual Diffusion Models for Deep Scalable Vision Generation Zhiyuan Ma Liangliang Zhao Biqing Qi Bowen Zhou DiffM 78 2 0 19 Jun 2024
Conditional score-based diffusion models for solving inverse problems in mechanics Agnimitra Dasgupta Harisankar Ramaswamy Javier Murgoitio-Esandi Ken Foo Runze Li Qifa Zhou Brendan Kennedy Assad A. Oberai DiffM MedIm 50 2 0 19 Jun 2024
Evaluating the design space of diffusion-based generative models Yuqing Wang Ye He Molei Tao DiffM 56 5 0 18 Jun 2024