v1v2v3 (latest)

Adding Conditional Control to Text-to-Image Diffusion Models

10 February 2023

Papers citing "Adding Conditional Control to Text-to-Image Diffusion Models"

50 / 3,090 papers shown

Title
CoSIGN: Few-Step Guidance of ConSIstency Model to Solve General INverse Problems Jiankun Zhao Bowen Song Liyue Shen DiffM 96 5 0 17 Jul 2024
The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation Yi Yao Chan-Feng Hsu Jhe-Hao Lin Hongxia Xie Terence Lin Yi-Ning Huang Hong-Han Shuai Wen-Huang Cheng DiffM 93 4 0 17 Jul 2024
Audio Conditioning for Music Generation via Discrete Bottleneck Features Simon Rouard Yossi Adi Jade Copet Axel Roebel Alexandre Défossez MGen 103 1 0 17 Jul 2024
GeoGuide: Geometric guidance of diffusion models Mateusz Poleski Jacek Tabor Przemysław Spurek 81 1 0 17 Jul 2024
I2AM: Interpreting Image-to-Image Latent Diffusion Models via Bi-Attribution Maps Junseo Park Hyeryung Jang 288 1 0 17 Jul 2024
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control Sherwin Bahmani Ivan Skorokhodov Aliaksandr Siarohin Willi Menapace Guocheng Qian ... Chaoyang Wang Jiaxu Zou Andrea Tagliasacchi David B. Lindell Sergey Tulyakov VGen DiffM 205 50 0 17 Jul 2024
DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion Huiguo He Huan Yang Zixi Tuo Yuan Zhou Qiuyue Wang Yuhang Zhang Zeyu Liu Wenhao Huang Hongyang Chao Jian Yin DiffM VGen 200 17 0 17 Jul 2024
UrbanWorld: An Urban World Model for 3D City Generation Yu Shang Jiansheng Chen Hangyu Fan Jingtao Ding J. Feng Yong Li 107 9 0 16 Jul 2024
DiNO-Diffusion. Scaling Medical Diffusion via Self-Supervised Pre-Training Guillermo Jiménez-Pérez Pedro Osório Josef Cersovsky Javier Montalt-Tordera Jens Hooge Steffen Vogler Sadegh Mohammadi MedIm 98 2 0 16 Jul 2024
How Control Information Influences Multilingual Text Image Generation and Editing? Boqiang Zhang Zuan Gao Yadong Qu Hongtao Xie DiffM 95 5 0 16 Jul 2024
InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models Nirat Saini Navaneeth Bodla Ashish Shrivastava Avinash Ravichandran Xiao Zhang Abhinav Shrivastava Bharat Singh DiffM 59 3 0 15 Jul 2024
IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation Yuanhao Zhai Kevin Qinghong Lin Linjie Li Chung-Ching Lin Jianfeng Wang Zhengyuan Yang David Doermann Junsong Yuan Zicheng Liu Lijuan Wang DiffM VGen 88 6 0 15 Jul 2024
MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration Yulin Ren Xin Li Bingchen Li Xingrui Wang Mengxi Guo Shijie Zhao Li Zhang Zhibo Chen DiffM 126 7 0 15 Jul 2024
Deep Diffusion Image Prior for Efficient OOD Adaptation in 3D Inverse Problems Hyungjin Chung Jong Chul Ye DiffM 110 7 0 15 Jul 2024
InsertDiffusion: Identity Preserving Visualization of Objects through a Training-Free Diffusion Architecture Phillip Mueller Jannik Wiese Ioan Crăciun Lars Mikelsons 83 4 0 15 Jul 2024
Kinetic Typography Diffusion Model Seonmi Park Inhwan Bae Seunghyun Shin Hae-Gon Jeon DiffM 113 2 0 15 Jul 2024
DiffStega: Towards Universal Training-Free Coverless Image Steganography with Diffusion Models Yiwei Yang Zheyuan Liu Jun Jia Zhongpai Gao Yunhao Li Wei Sun Xiaohong Liu Guangtao Zhai DiffM 107 7 0 15 Jul 2024
Exploring the Potentials and Challenges of Deep Generative Models in Product Design Conception Phillip Mueller Lars Mikelsons AI4CE 120 3 0 15 Jul 2024
Disrupting Diffusion-based Inpainters with Semantic Digression Geonho Son Juhun Lee Simon S. Woo DiffM 65 4 0 14 Jul 2024
Domain-adaptive Video Deblurring via Test-time Blurring Jin-Ting He Fu-Jen Tsai Jia-Hao Wu Yan-Tsung Peng Chung-Chi Tsai Chia-Wen Lin Yen-Yu Lin 107 1 0 12 Jul 2024
PersonificationNet: Making customized subject act like a person Tianchu Guo Pengyu Li Biao Wang Xiansheng Hua 46 0 0 12 Jul 2024
TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models J. Kim Min-Jung Kim Junsoo Lee Jaegul Choo DiffM 83 6 0 12 Jul 2024
Mixed-View Panorama Synthesis using Geospatially Guided Diffusion Zhexiao Xiong Xin Xing Scott Workman Subash Khanal Nathan Jacobs MDE DiffM 138 1 0 12 Jul 2024
AirSketch: Generative Motion to Sketch Hui Xian Grace Lim Xuanming Cui Yogesh S Rawat Ser-Nam Lim DiffM VGen 75 0 0 12 Jul 2024
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models Zhening Xing Gereon Fox Yanhong Zeng Xingang Pan Mohamed A. Elgharib Christian Theobalt Kai Chen VGen 84 4 0 11 Jul 2024
Still-Moving: Customized Video Generation without Customized Video Data Hila Chefer Shiran Zada Roni Paiss Ariel Ephrat Omer Tov Michael Rubinstein Lior Wolf Tali Dekel T. Michaeli Inbar Mosseri DiffM VGen 91 25 0 11 Jul 2024
15M Multimodal Facial Image-Text Dataset Dawei Dai Yutang Li Yingge Liu Mingming Jia Zhang YuanHui Guoyin Wang VLM 103 7 0 11 Jul 2024
A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights Wentao Lei Jinting Wang Fengji Ma Guanjie Huang Li Liu VGen EGVM 128 9 0 11 Jul 2024
Enriching Information and Preserving Semantic Consistency in Expanding Curvilinear Object Segmentation Datasets Qin Lei Jiang Zhong Qizhu Dai DiffM 76 3 0 11 Jul 2024
Geospecific View Generation -- Geometry-Context Aware High-resolution Ground View Inference from Satellite Views Ningli Xu R. Qin 105 6 0 10 Jul 2024
Coherent and Multi-modality Image Inpainting via Latent Space Optimization Lingzhi Pan Tong Zhang Bingyuan Chen Qi Zhou Wei Ke Sabine Süsstrunk Mathieu Salzmann DiffM 66 2 0 10 Jul 2024
Generative Image as Action Models Mohit Shridhar Yat Long Lo Stephen James 117 12 0 10 Jul 2024
Green Screen Augmentation Enables Scene Generalisation in Robotic Manipulation Eugene Teoh Sumit Patidar Xiao Ma Stephen James 91 6 0 10 Jul 2024
Drantal-NeRF: Diffusion-Based Restoration for Anti-aliasing Neural Radiance Field Ganlin Yang Kaidong Zhang Jingjing Fu Dong Liu DiffM 80 1 0 10 Jul 2024
ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction Shaozhe Hao Kai Han Zhengyao Lv Shihao Zhao Kwan-Yee K. Wong DiffM CoGe 127 7 0 09 Jul 2024
RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models Bowen Zhang Yiji Cheng Chunyu Wang Ting Zhang Jiaolong Yang Yansong Tang Feng Zhao Dong Chen Baining Guo DiffM 96 19 0 09 Jul 2024
HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance Guian Fang Wenbiao Yan Yuanfan Guo J. N. Han Zutao Jiang Hang Xu Shengcai Liao Xiaodan Liang 113 6 0 09 Jul 2024
CoLA: Conditional Dropout and Language-driven Robust Dual-modal Salient Object Detection Shuang Hao Chunlin Zhong He Tang 83 1 0 09 Jul 2024
Mobius: A High Efficient Spatial-Temporal Parallel Training Paradigm for Text-to-Video Generation Task Yiran Yang Jinchao Zhang Ying Deng Jie Zhou DiffM 72 0 0 09 Jul 2024
VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving Yibo Liu Zheyuan Yang Guile Wu Y. Ren Kejian Lin Bingbing Liu Yang Liu Jinjun Shan 78 6 0 09 Jul 2024
Sketch-Guided Scene Image Generation Tianyu Zhang Xiaoxuan Xie Xusheng Du H. Xie DiffM 88 2 0 09 Jul 2024
FairDiff: Fair Segmentation with Point-Image Diffusion Wenyi Li Haoran Xu Guiyu Zhang Huan-ang Gao Mingju Gao Mengyu Wang Hao Zhao MedIm 122 11 0 08 Jul 2024
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images Zhangyang Qi Yunhan Yang Mengchen Zhang Long Xing Xiaoyang Wu Tong Wu Dahua Lin Xihui Liu Jiaqi Wang Hengshuang Zhao DiffM 84 10 0 08 Jul 2024
Improving AlphaFlow for Efficient Protein Ensembles Generation Shaoning Li Mingyu Li Yusong Wang Xinheng He Nanning Zheng Jian Zhang Pheng-Ann Heng 60 5 0 08 Jul 2024
GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing Zhenyu Wang Aoxue Li Zhenguo Li Xihui Liu MLLM DiffM 132 40 0 08 Jul 2024
Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder Jia Liu Changlin Li Qirui Sun Jiahui Ming Chen Fang Jue Wang Bing Zeng Shuaicheng Liu DiffM 74 4 0 08 Jul 2024
Read, Watch and Scream! Sound Generation from Text and Video Yujin Jeong Yunji Kim Sanghyuk Chun Jiyoung Lee VGen DiffM 89 15 0 08 Jul 2024
LaSe-E2V: Towards Language-guided Semantic-Aware Event-to-Video Reconstruction Kanghao Chen Hangyu Li Jiazhou Zhou Zeyu Wang Lin Wang DiffM VGen 74 2 0 08 Jul 2024
AID-AppEAL: Automatic Image Dataset and Algorithm for Content Appeal Enhancement and Assessment Labeling Sherry X. Chen Yaron Vaxman Elad Ben Baruch David Asulin Aviad Moreshet Misha Sra Pradeep Sen 55 0 0 08 Jul 2024
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation Yukang Cao Xinying Guo Mingyuan Zhang Haozhe Xie Chenyang Gu Ziwei Liu 110 2 0 08 Jul 2024