Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image
Diffusion Models

Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models

10 April 2024

Papers citing "Object-Conditioned Energy-Based Attention Map Alignment in Text-to-Image Diffusion Models"

16 / 16 papers shown

Title
Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation Tianyu Chen Yasi Zhang Ziyi Wang Ying Nian Wu Oscar Leong Mingyuan Zhou DiffM 104 2 0 10 Mar 2025
DyMO: Training-Free Diffusion Model Alignment with Dynamic Multi-Objective Scheduling Xin Xie Dong Gong 117 1 0 01 Dec 2024
Flow Priors for Linear Inverse Problems via Iterative Corrupted Trajectory Matching Yasi Zhang Peiyu Yu Yaxuan Zhu Yingshan Chang Feng Gao Yingnian Wu Oscar Leong 105 9 0 29 May 2024
eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers Yogesh Balaji Seungjun Nah Xun Huang Arash Vahdat Jiaming Song ... Timo Aila S. Laine Bryan Catanzaro Tero Karras Xuan Li VLM MoE 142 817 0 02 Nov 2022
When and why vision-language models behave like bags-of-words, and what to do about it? Mert Yuksekgonul Federico Bianchi Pratyusha Kalluri Dan Jurafsky James Zou VLM CoGe 56 384 0 04 Oct 2022
Prompt-to-Prompt Image Editing with Cross Attention Control Amir Hertz Ron Mokady J. Tenenbaum Kfir Aberman Yael Pritch Daniel Cohen-Or DiffM 132 1,746 0 02 Aug 2022
Testing Relational Understanding in Text-Guided Image Generation C. Conwell T. Ullman EGVM 177 65 0 29 Jul 2022
Classifier-Free Diffusion Guidance Jonathan Ho Tim Salimans FaML 94 3,830 0 26 Jul 2022
Latent Diffusion Energy-Based Model for Interpretable Text Modeling Peiyu Yu Sirui Xie Xiaojian Ma Baoxiong Jia Bo Pang Ruigi Gao Yixin Zhu Song-Chun Zhu Ying Nian Wu DiffM 62 82 0 13 Jun 2022
Compositional Visual Generation with Composable Diffusion Models Nan Liu Shuang Li Yilun Du Antonio Torralba J. Tenenbaum DiffM CoGe 120 510 0 03 Jun 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 300 6,768 0 13 Apr 2022
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models Alex Nichol Prafulla Dhariwal Aditya A. Ramesh Pranav Shyam Pamela Mishkin Bob McGrew Ilya Sutskever Mark Chen 249 3,552 0 20 Dec 2021
FLAVA: A Foundational Language And Vision Alignment Model Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela CLIP VLM 72 703 0 08 Dec 2021
Unsupervised Foreground Extraction via Deep Region Competition Peiyu Yu Sirui Xie Xiaojian Ma Yixin Zhu Ying Nian Wu Song-Chun Zhu OCL 51 42 0 29 Oct 2021
Hopfield Networks is All You Need Hubert Ramsauer Bernhard Schafl Johannes Lehner Philipp Seidl Michael Widrich ... David P. Kreil Michael K Kopp Günter Klambauer Johannes Brandstetter Sepp Hochreiter 72 424 0 16 Jul 2020
Distributed Representations of Words and Phrases and their Compositionality Tomas Mikolov Ilya Sutskever Kai Chen G. Corrado J. Dean NAI OCL 308 33,445 0 16 Oct 2013