v1v2v3 (latest)

Adding Conditional Control to Text-to-Image Diffusion Models

10 February 2023

Papers citing "Adding Conditional Control to Text-to-Image Diffusion Models"

50 / 3,090 papers shown

Title
Learning to Manipulate Artistic Images Wei Guo Yuqi Zhang De Ma Qian Zheng 66 0 0 25 Jan 2024
BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models Senthil Purushwalkam Akash Gokul Shafiq Joty Nikhil Naik DiffM 78 19 0 25 Jan 2024
StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models Mohan Zhou Yalong Bai Qing Yang Tiejun Zhao 52 0 0 25 Jan 2024
CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion Nisha Huang Weiming Dong Yuxin Zhang Fan Tang Ronghui Li Chongyang Ma Xiu Li Tong-Yee Lee Changsheng Xu DiffM 90 0 0 25 Jan 2024
Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All M. S. Seyfioglu Karim Bouyarmane Suren Kumar Amir Tavanaei Ismail B. Tutar DiffM 70 8 0 24 Jan 2024
Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild Fanghua Yu Jinjin Gu Zheyuan Li Jinfan Hu Xiangtao Kong Xintao Wang Jingwen He Yu Qiao Chao Dong 106 156 0 24 Jan 2024
Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons Zhe Xu Kun-Juan Wei Xu Yang Cheng Deng DiffM 38 4 0 24 Jan 2024
Towards Multi-domain Face Landmark Detection with Synthetic Data from Diffusion model Yuanming Li Gwantae Kim Jeong-gi Kwak B. Ku Hanseok Ko 78 0 0 24 Jan 2024
GALA: Generating Animatable Layered Assets from a Single Scan Taeksoo Kim Byungjun Kim Shunsuke Saito Hanbyul Joo 3DH 92 13 0 23 Jan 2024
Lumiere: A Space-Time Diffusion Model for Video Generation Omer Bar-Tal Hila Chefer Omer Tov Charles Herrmann Roni Paiss ... T. Michaeli Oliver Wang Deqing Sun Tali Dekel Inbar Mosseri VGen 215 258 0 23 Jan 2024
ToDA: Target-oriented Diffusion Attacker against Recommendation System Xiaohao Liu Zhulin Tao Ting Jiang He Chang Yunshan Ma Yinwei Wei Xianglin Huang DiffM AAML 96 4 0 23 Jan 2024
DITTO: Diffusion Inference-Time T-Optimization for Music Generation Cheng-i Wang Julian McAuley Taylor Berg-Kirkpatrick Nicholas J. Bryan DiffM 119 41 0 22 Jan 2024
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs Ling Yang Zhaochen Yu Chenlin Meng Minkai Xu Stefano Ermon Tengjiao Wang CoGe DiffM 128 137 0 22 Jan 2024
Generative AI-Driven Human Digital Twin in IoT-Healthcare: A Comprehensive Survey Jiayuan Chen You Shi Changyan Yi Hongyang Du Jiawen Kang Dusit Niyato 76 29 0 22 Jan 2024
TypeDance: Creating Semantic Typographic Logos from Image through Personalized Generation Shishi Xiao Liangwei Wang Xiaojuan Ma Wei Zeng 98 20 0 20 Jan 2024
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data Lihe Yang Bingyi Kang Zilong Huang Xiaogang Xu Jiashi Feng Hengshuang Zhao VLM 273 825 0 19 Jan 2024
Synthesizing Moving People with 3D Control Boyi Li Jathushan Rajasegaran Yossi Gandelsman Alexei A. Efros Jitendra Malik VGen DiffM 66 2 0 19 Jan 2024
ActAnywhere: Subject-Aware Video Background Generation Boxiao Pan Zhan Xu Chun-Hao Paul Huang Krishna Kumar Singh Yang Zhou Leonidas Guibas Jimei Yang VGen DiffM 61 3 0 19 Jan 2024
Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion Zuoyue Li Zhenqiang Li Zhaopeng Cui Marc Pollefeys Martin R. Oswald 96 16 0 19 Jan 2024
MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning Chenyu Wang Weixin Luo Qianyu Chen Haonan Mai Jindi Guo Sixun Dong Xiaohua Xuan MLLM LLMAG 147 20 0 19 Jan 2024
A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting Wouter Van Gansbeke Bert De Brabandere DiffM 125 11 0 18 Jan 2024
Towards Language-Driven Video Inpainting via Multimodal Large Language Models Jianzong Wu Xiangtai Li Chenyang Si Shangchen Zhou Jingkang Yang ... Yining Li Kai Chen Yunhai Tong Ziwei Liu Chen Change Loy VGen DiffM MLLM 121 17 0 18 Jan 2024
Edit One for All: Interactive Batch Image Editing Thao Nguyen Utkarsh Ojha Yuheng Li Haotian Liu Yong Jae Lee DiffM 89 3 0 18 Jan 2024
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer Changyao Tian Xizhou Zhu Yuwen Xiong Weiyun Wang Zhe Chen ... Tong Lu Jie Zhou Hongsheng Li Yu Qiao Jifeng Dai AuLLM 145 49 0 18 Jan 2024
Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation Changgu Chen Junwei Shu Lianggangxu Chen Gaoqi He Changbo Wang VGen 103 16 0 18 Jan 2024
DiffusionGPT: LLM-Driven Text-to-Image Generation System Jie Qin Jie Wu Weifeng Chen Yuxi Ren Huixian Li Hefeng Wu Xuefeng Xiao Rui Wang S. Wen DiffM 105 35 0 18 Jan 2024
TextureDreamer: Image-guided Texture Synthesis through Geometry-aware Diffusion Yu-Ying Yeh Jia-Bin Huang Changil Kim Lei Xiao Thu Nguyen-Phuoc ... Cheng Zhang Manmohan Chandraker Carl S. Marshall Zhao Dong Zhengqin Li DiffM 108 36 0 17 Jan 2024
Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis Jonghyun Lee Hansam Cho Youngjoon Yoo Seoung Bum Kim Yonghyun Jeong DiffM 53 7 0 17 Jan 2024
Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation Tong Xie Haoyu Li Andrew Bai Cho-Jui Hsieh TDI 102 4 0 17 Jan 2024
3D Human Pose Analysis via Diffusion Synthesis Haorui Ji Hongdong Li DiffM 151 3 0 17 Jan 2024
Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive Yumeng Li Margret Keuper Dan Zhang Anna Khoreva DiffM 93 12 0 16 Jan 2024
RoHM: Robust Human Motion Reconstruction via Diffusion Siwei Zhang Bharat Lal Bhatnagar Yuanlu Xu Alexander Winkler Petr Kadlecek Siyu Tang Federica Bogo DiffM 150 17 0 16 Jan 2024
Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation Mathis Petrovich Or Litany Umar Iqbal Michael J. Black Gül Varol Xue Bin Peng Davis Rempe DiffM VGen 106 44 0 16 Jan 2024
Instilling Multi-round Thinking to Text-guided Image Generation Lidong Zeng Zhedong Zheng Yinwei Wei Tat-Seng Chua 108 5 0 16 Jan 2024
SCoFT: Self-Contrastive Fine-Tuning for Equitable Image Generation Zhixuan Liu Peter Schaldenbrand Beverley-Claire Okogwu Wenxuan Peng Youngsik Yun Andrew Hundt Jihie Kim Jean Oh 75 18 0 16 Jan 2024
InstantID: Zero-shot Identity-Preserving Generation in Seconds Qixun Wang Xu Bai Haofan Wang Zekui Qin Anthony Chen Huaxia Li Xu Tang Feng-Long Xie 91 259 0 15 Jan 2024
360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model Qian Wang Weiqi Li Chong Mou Xinhua Cheng Jian Zhang VGen 109 20 0 12 Jan 2024
PartSTAD: 2D-to-3D Part Segmentation Task Adaptation Hyunjin Kim Minhyuk Sung 125 8 0 11 Jan 2024
HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced Diffusion Models Hanzhang Wang Haoran Wang Jinze Yang Zhongrui Yu Zeke Xie Lei Tian Xinyan Xiao Junjun Jiang Xianming Liu Mingming Sun DiffM 56 1 0 11 Jan 2024
Object-Centric Diffusion for Efficient Video Editing Kumara Kahatapitiya Adil Karjauv Davide Abati Fatih Porikli Yuki M. Asano A. Habibian VGen 94 13 0 11 Jan 2024
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models Junsong Chen Yue Wu Simian Luo Enze Xie Sayak Paul Ping Luo Hang Zhao Zhenguo Li VLM 105 86 0 10 Jan 2024
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning Yiqi Wang Wentao Chen Xiaotian Han Xudong Lin Haiteng Zhao Yongfei Liu Bohan Zhai Jianbo Yuan Quanzeng You Hongxia Yang LRM 110 88 0 10 Jan 2024
A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars Ronglai Zuo Fangyun Wei Zenggui Chen Brian Mak Jiaolong Yang Xin Tong SLR 90 5 0 09 Jan 2024
Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation Xiyi Chen Marko Mihajlovic Shaofei Wang Sergey Prokudin Siyu Tang 174 11 0 09 Jan 2024
EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion Models Jingyuan Yang Jiawei Feng Hui Huang VLM 56 8 0 09 Jan 2024
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation Weimin Wang Jiawei Liu Zhijie Lin Jiangqiao Yan Shuo Chen ... Jie Wu Jun Hao Liew Hanshu Yan Daquan Zhou Jiashi Feng VGen DiffM 145 37 0 09 Jan 2024
SonicVisionLM: Playing Sound with Vision Language Models Zhifeng Xie Shengye Yu Qile He Mengtian Li VLM VGen 70 2 0 09 Jan 2024
Representative Feature Extraction During Diffusion Process for Sketch Extraction with One Example Kwan Yun Youngseo Kim Kwanggyoon Seo Chang Wook Seo Junyong Noh DiffM 67 2 0 09 Jan 2024
EDA-DM: Enhanced Distribution Alignment for Post-Training Quantization of Diffusion Models Xuewen Liu Zhikai Li Junrui Xiao Mengjuan Chen Jianquan Li Qingyi Gu MQ 126 14 0 09 Jan 2024
TIER: Text-Image Encoder-based Regression for AIGC Image Quality Assessment Jiquan Yuan Xinyan Cao Jinming Che Qinyuan Wang Sen Liang Wei Ren Jinlong Lin Xixin Cao EGVM 53 1 0 08 Jan 2024