Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation

Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation

29 April 2024

Ying Tai

Lanjun Wang

Zili Yi

Papers citing "Anywhere: A Multi-Agent Framework for User-Guided, Reliable, and Diverse Foreground-Conditioned Image Generation"

17 / 17 papers shown

Title
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering Zeqing Wang Wentao Wan Qiqing Lao Runmeng Chen Minjie Lang Keze Wang Liang Lin Liang Lin LRM 183 3 0 17 Feb 2025
Transparent Image Layer Diffusion using Latent Transparency Lvmin Zhang Maneesh Agrawala 62 48 0 27 Feb 2024
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions Wenbo Hu Y. Xu Yuante Li W. Li Zhe Chen Zhuowen Tu MLLM VLM 73 132 0 19 Aug 2023
Zero-shot spatial layout conditioning for text-to-image diffusion models Guillaume Couairon Marlene Careil Matthieu Cord Stéphane Lathuilière Jakob Verbeek VLM 45 64 0 23 Jun 2023
AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn Difei Gao Lei Ji Luowei Zhou Kevin Lin Joya Chen Zihan Fan Mike Zheng Shou MLLM 69 75 0 14 Jun 2023
StyleDrop: Text-to-Image Generation in Any Style Kihyuk Sohn Nataniel Ruiz Kimin Lee Daniel Castro Chin Irina Blok ... Yuanzhen Li Yuan Hao Irfan Essa Michael Rubinstein Dilip Krishnan 38 149 0 01 Jun 2023
Subject-driven Text-to-Image Generation via Apprenticeship Learning Wenhu Chen Hexiang Hu Yandong Li Nataniel Rui Xuhui Jia Ming-Wei Chang William W. Cohen DiffM 79 191 0 01 Apr 2023
Composer: Creative and Controllable Image Synthesis with Composable Conditions Lianghua Huang Di Chen Yu Liu Yujun Shen Deli Zhao Jingren Zhou DiffM 46 287 0 20 Feb 2023
Adding Conditional Control to Text-to-Image Diffusion Models Lvmin Zhang Anyi Rao Maneesh Agrawala AI4CE 105 4,074 1 10 Feb 2023
SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model Shaoan Xie Zhifei Zhang Zhe Lin Tobias Hinz Kun Zhang DiffM 70 242 0 09 Dec 2022
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal Yuval Alaluf Yuval Atzmon Or Patashnik Amit H. Bermano Gal Chechik Daniel Cohen-Or 109 1,862 0 02 Aug 2022
Blended Latent Diffusion Omri Avrahami Ohad Fried Dani Lischinski DiffM 101 381 0 06 Jun 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 344 3,515 0 29 Apr 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 501 4,324 0 28 Jan 2022
RePaint: Inpainting using Denoising Diffusion Probabilistic Models Andreas Lugmayr Martin Danelljan Andrés Romero Feng Yu Radu Timofte Luc Van Gool DiffM 328 1,396 0 24 Jan 2022
Blended Diffusion for Text-driven Editing of Natural Images Omri Avrahami Dani Lischinski Ohad Fried DiffM 99 943 0 29 Nov 2021
Palette: Image-to-Image Diffusion Models Chitwan Saharia William Chan Huiwen Chang Chris A. Lee Jonathan Ho Tim Salimans David J. Fleet Mohammad Norouzi DiffM VLM 469 1,627 0 10 Nov 2021