SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

9 May 2023

Papers citing "SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models"

32 / 32 papers shown

Title
MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation Mingcheng Li Xiaolu Hou Ziyang Liu Dingkang Yang Ziyun Qian Jiawei Chen Jinjie Wei Y. Jiang Qingyao Xu Li Zhang DiffM 207 0 0 05 May 2025
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment Jiayang Sun H. Wang Jie Cao Huaibo Huang Ran He DiffM 76 0 0 10 Apr 2025
On Geometrical Properties of Text Token Embeddings for Strong Semantic Binding in Text-to-Image Generation H. Seo Junseo Bang Haechang Lee Joohoon Lee Byung Hyun Lee Se Young Chun 46 0 0 29 Mar 2025
LLM-guided Instance-level Image Manipulation with Diffusion U-Net Cross-Attention Maps Andrey Palaev Adil Mehmood Khan S. M. Ahsan Kazmi DiffM 53 0 0 23 Jan 2025
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models Bingqi Ma Zhuofan Zong Guanglu Song Hongsheng Li Yu Liu 38 21 0 17 Jun 2024
Understanding the Impact of Negative Prompts: When and How Do They Take Effect? Yuanhao Ban Ruochen Wang Tianyi Zhou Minhao Cheng Boqing Gong Cho-Jui Hsieh 42 16 0 05 Jun 2024
UVMap-ID: A Controllable and Personalized UV Map Generative Model Weijie Wang Jichao Zhang Chang Liu Xia Li Xingqian Xu Humphrey Shi N. Sebe Bruno Lepri 41 2 0 22 Apr 2024
AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment Yuanfeng Xu Yuhao Chen Zhongzhan Huang Zijian He Guangrun Wang Philip Torr Liang Lin VGen 45 1 0 07 Apr 2024
TextCraftor: Your Text Encoder Can be Image Quality Controller Yanyu Li Xian Liu Anil Kag Ju Hu Yerlan Idelbayev Dhritiman Sagar Yanzhi Wang Sergey Tulyakov Jian Ren 50 15 0 27 Mar 2024
Beyond Text: Frozen Large Language Models in Visual Signal Comprehension Lei Zhu Fangyun Wei Yanye Lu MLLM VLM 52 17 0 12 Mar 2024
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment Xiwei Hu Rui Wang Yixiao Fang Bin-Bin Fu Pei Cheng Gang Yu VLM 59 72 0 08 Mar 2024
Evolutionary Reinforcement Learning: A Systematic Review and Future Directions Y. Lin Fan Lin Guorong Cai Hong Chen Lixin Zou Pengcheng Wu 52 3 0 20 Feb 2024
Mirror Gradient: Towards Robust Multimodal Recommender Systems via Exploring Flat Local Minima Shan Zhong Zhongzhan Huang Daifeng Li Wushao Wen Jinghui Qin Liang Lin 30 12 0 17 Feb 2024
Enhancing Zero-shot Counting via Language-guided Exemplar Learning Mingjie Wang Jun Zhou Yong Dai Eric Buys Minglun Gong 41 0 0 08 Feb 2024
Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation Shan Zhong Zhongzhan Huang Shanghua Gao Wushao Wen Liang Lin Marinka Zitnik Pan Zhou LLMAG LRM 19 35 0 05 Dec 2023
LLMGA: Multimodal Large Language Model based Generation Assistant Bin Xia Shiyin Wang Yingfan Tao Yitong Wang Jiaya Jia MLLM 41 12 0 27 Nov 2023
ChatTraffic: Text-to-Traffic Generation via Diffusion Model Chengyang Zhang Yong Zhang Qitan Shao Bo Li Yisheng Lv Xinglin Piao Baocai Yin 30 6 0 27 Nov 2023
ScaleLong: Towards More Stable Training of Diffusion Model via Scaling Network Long Skip Connection Zhongzhan Huang Pan Zhou Shuicheng Yan Liang Lin 24 26 0 20 Oct 2023
Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting Zijie Chen Lichao Zhang Fangsheng Weng Lili Pan Zhenzhong Lan 27 9 0 12 Oct 2023
Counting Guidance for High Fidelity Text-to-Image Synthesis Wonjune Kang Kevin Galim H. Koo Nam Ik Cho DiffM 32 8 0 30 Jun 2023
Grounded Text-to-Image Synthesis with Attention Refocusing Quynh Phung Songwei Ge Jia-Bin Huang DiffM 36 104 0 08 Jun 2023
WizardLM: Empowering Large Language Models to Follow Complex Instructions Can Xu Qingfeng Sun Kai Zheng Xiubo Geng Pu Zhao Jiazhan Feng Chongyang Tao Daxin Jiang ALM 46 911 0 24 Apr 2023
One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale Fan Bao Shen Nie Kaiwen Xue Chongxuan Li Shiliang Pu Yaole Wang Gang Yue Yue Cao Hang Su Jun Zhu DiffM 207 150 0 12 Mar 2023
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng Zhang Yuxiao Dong Jie Tang BDL LRM 273 1,073 0 05 Oct 2022
Diffusion Models: A Comprehensive Survey of Methods and Applications Ling Yang Zhilong Zhang Yingxia Shao Shenda Hong Runsheng Xu Yue Zhao Wentao Zhang Bin Cui Ming-Hsuan Yang DiffM MedIm 224 1,311 0 02 Sep 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 392 4,171 0 28 Jan 2022
RePaint: Inpainting using Denoising Diffusion Probabilistic Models Andreas Lugmayr Martin Danelljan Andrés Romero Feng Yu Radu Timofte Luc Van Gool DiffM 233 1,358 0 24 Jan 2022
Label-Efficient Semantic Segmentation with Diffusion Models Dmitry Baranchuk Ivan Rubachev A. Voynov Valentin Khrulkov Artem Babenko DiffM VLM 195 517 0 06 Dec 2021
MUSIQ: Multi-scale Image Quality Transformer Junjie Ke Qifei Wang Yilin Wang P. Milanfar Feng Yang 177 629 0 12 Aug 2021
Counterfactual Samples Synthesizing for Robust Visual Question Answering Long Chen Xin Yan Jun Xiao Hanwang Zhang Shiliang Pu Yueting Zhuang OOD AAML 154 290 0 14 Mar 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 264 4,505 0 23 Jan 2020
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism M. Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 245 1,833 0 17 Sep 2019