Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models

21 March 2024

Pablo Marcos-Manchón

Roberto Alcover-Couso

Papers citing "Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models"

29 / 29 papers shown

Title
Segment Anyword: Mask Prompt Inversion for Open-Set Grounded Segmentation Zhihua Liu Amrutha Saseendran Lei Tong Xilin He Fariba Yousefi ... Dino Oglic Tom Diethe Philip Teare Huiyu Zhou Chen Jin VLM 353 0 0 23 May 2025
Diffusion Meets Few-shot Class Incremental Learning Junsu Kim Yunhoe Ku Dongyoon Han Seungryul Baek DiffM CLL 182 0 0 30 Mar 2025
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation Jiayi Lin Jiabo Huang Jian Hu S. Gong DiffM VLM 92 0 0 15 Oct 2024
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation Xingchao Liu Xiwen Zhang Jianzhu Ma Jian Peng Qiang Liu 148 219 0 12 Sep 2023
From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models Changming Xiao Qi Yang Feng Zhou Changshui Zhang 67 17 0 08 Sep 2023
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models Wei Wu Yuzhong Zhao Hao Chen Yuchao Gu Rui Zhao Yefei He Hong Zhou Mike Zheng Shou Chunhua Shen 83 104 0 11 Aug 2023
Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry Yong-Hyun Park Mingi Kwon J. Choi Junghyo Jo Youngjung Uh DiffM 95 68 0 24 Jul 2023
Zero-shot spatial layout conditioning for text-to-image diffusion models Guillaume Couairon Marlene Careil Matthieu Cord Stéphane Lathuilière Jakob Verbeek VLM 57 64 0 23 Jun 2023
Emergent Correspondence from Image Diffusion Luming Tang Menglin Jia Qianqian Wang Cheng Perng Phoo Bharath Hariharan 91 259 0 06 Jun 2023
FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation Jie Qin Jie Wu Pengxiang Yan Ming Li Ren Yuxi ... Yitong Wang Rui Wang Shilei Wen X. Pan Xingang Wang SSeg VLM 72 92 0 30 Mar 2023
Discriminative Class Tokens for Text-to-Image Diffusion Models Idan Schwartz Vésteinn Snaebjarnarson Hila Chefer Ryan Cotterell Serge Belongie Lior Wolf Sagie Benaim 62 10 0 30 Mar 2023
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models Chong Mou Xintao Wang Liangbin Xie Yanze Wu Shuai Liu Zhongang Qi Ying Shan Xiaohu Qie DiffM 118 1,027 0 16 Feb 2023
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models Hila Chefer Yuval Alaluf Yael Vinker Lior Wolf Daniel Cohen-Or DiffM 107 510 0 31 Jan 2023
Prompt-to-Prompt Image Editing with Cross Attention Control Amir Hertz Ron Mokady J. Tenenbaum Kfir Aberman Yael Pritch Daniel Cohen-Or DiffM 198 1,773 0 02 Aug 2022
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal Yuval Alaluf Yuval Atzmon Or Patashnik Amit H. Bermano Gal Chechik Daniel Cohen-Or 155 1,889 0 02 Aug 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 404 6,866 0 13 Apr 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 440 15,665 0 20 Dec 2021
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models Alex Nichol Prafulla Dhariwal Aditya A. Ramesh Pranav Shyam Pamela Mishkin Bob McGrew Ilya Sutskever Mark Chen 350 3,605 0 20 Dec 2021
Masked-attention Mask Transformer for Universal Image Segmentation Bowen Cheng Ishan Misra Alex Schwing Alexander Kirillov Rohit Girdhar ISeg 248 2,374 0 02 Dec 2021
Diffusion Models Beat GANs on Image Synthesis Prafulla Dhariwal Alex Nichol 230 7,857 0 11 May 2021
A survey of loss functions for semantic segmentation Shruti Jadon SSeg 67 840 0 26 Jun 2020
Block Annotation: Better Image Annotation for Semantic Segmentation with Sub-Image Decomposition Hubert Lin P. Upchurch Kavita Bala 94 23 0 16 Feb 2020
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 514 42,449 0 03 Dec 2019
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 439 20,181 0 23 Oct 2019
Attention is not not Explanation Sarah Wiegreffe Yuval Pinter XAI AAML FAtt 120 909 0 13 Aug 2019
What Does BERT Look At? An Analysis of BERT's Attention Kevin Clark Urvashi Khandelwal Omer Levy Christopher D. Manning MILM 218 1,598 0 11 Jun 2019
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 215 2,478 0 01 Apr 2015
Deep Unsupervised Learning using Nonequilibrium Thermodynamics Jascha Narain Sohl-Dickstein Eric A. Weiss Niru Maheswaranathan Surya Ganguli SyDa DiffM 301 6,949 0 12 Mar 2015
Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials Philipp Krahenbuhl V. Koltun 132 3,452 0 20 Oct 2012