Title
Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers Subhadeep Koley A. Bhunia Aneeshan Sain Pinaki Nath Chowdhury Tao Xiang Yi-Zhe Song DiffM 95 7 0 12 Mar 2024
Stable-Makeup: When Real-World Makeup Transfer Meets Diffusion Model Yuxuan Zhang Lifu Wei Qing Zhang Yiren Song DiffM 111 17 0 12 Mar 2024
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data Jialu Li Jaemin Cho Yi-Lin Sung Jaehong Yoon Mohit Bansal MoMe DiffM 99 9 0 11 Mar 2024
Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis Mu-Hwa Chen Yi Liu Jian Yi Changran Xu Qiuxia Lai Hongliang Wang Tsung-Yi Ho Qiang Xu EGVM 82 10 0 08 Mar 2024
Face2Diffusion for Fast and Editable Face Personalization Kaede Shiohara Toshihiko Yamasaki DiffM 60 12 0 08 Mar 2024
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation Junsong Chen Chongjian Ge Enze Xie Yue Wu Lewei Yao Xiaozhe Ren Zhongdao Wang Ping Luo Huchuan Lu Zhenguo Li 226 123 0 07 Mar 2024
Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training David Wan Jaemin Cho Elias Stengel-Eskin Mohit Bansal VLM ObjD 115 36 0 04 Mar 2024
Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian Mixture Models Yuchen Wu Minshuo Chen Zihao Li Mengdi Wang Yuting Wei 110 29 0 03 Mar 2024
SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation Hongjian Liu Qingsong Xie Zhijie Deng Chen Chen Shixiang Tang Fueyang Fu Zheng-Jun Zha H. Lu Zheng-jun Zha 114 9 0 03 Mar 2024
Rethinking cluster-conditioned diffusion models Nikolas Adaloglou Tim Kaiser Félix D. P. Michels M. Kollmann VLM 75 3 0 01 Mar 2024
FineDiffusion: Scaling up Diffusion Models for Fine-grained Image Generation with 10,000 Classes Ziying Pan Kun Wang Gang Li Feihong He Yongxuan Lai 92 1 0 28 Feb 2024
Balancing Act: Distribution-Guided Debiasing in Diffusion Models Rishubh Parihar Abhijnya Bhat Abhipsa Basu Saswat Mallick Jogendra Nath Kundu R. V. Babu 187 21 0 28 Feb 2024
On the Challenges and Opportunities in Generative AI Laura Manduchi Kushagra Pandey Robert Bamler Ryan Cotterell Sina Daubener ... F. Wenzel Frank Wood Stephan Mandt Vincent Fortuin Vincent Fortuin 288 22 0 28 Feb 2024
Accelerating Diffusion Sampling with Optimized Time Steps Shuchen Xue Zhaoqiang Liu Fei Chen Shifeng Zhang Tianyang Hu Enze Xie Zhenguo Li DiffM 145 29 0 27 Feb 2024
One-Shot Structure-Aware Stylized Image Synthesis Hansam Cho Jonghyun Lee Seunggyu Chang Yonghyun Jeong DiffM 109 7 0 27 Feb 2024
Diffusion Model-Based Image Editing: A Survey Yi Huang Jiancheng Huang Yifan Liu Mingfu Yan Jiaxi Lv Jianzhuang Liu Wei Xiong He Zhang Liangliang Cao Liangliang Cao EGVM 245 103 0 27 Feb 2024
TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages Minsu Kim Jee-weon Jung Hyeongseop Rha Soumi Maiti Siddhant Arora Xuankai Chang Shinji Watanabe Y. Ro 102 7 0 25 Feb 2024
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing Hyunjae Kim Seunghyun Yoon Trung Bui Handong Zhao Quan Tran Franck Dernoncourt Jaewoo Kang CLIP 138 2 0 23 Feb 2024
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis Willi Menapace Aliaksandr Siarohin Ivan Skorokhodov Ekaterina Deyneka Tsai-Shien Chen ... Yuwei Fang A. Stoliar Elisa Ricci Jian Ren Sergey Tulyakov VGen 134 62 0 22 Feb 2024
Two-stage Cytopathological Image Synthesis for Augmenting Cervical Abnormality Screening Zhenrong Shen Manman Fei Xin Wang Jiangdong Cai Sheng Wang Lichi Zhang Qian Wang MedIm 119 0 0 22 Feb 2024
Debiasing Text-to-Image Diffusion Models Ruifei He Chuhui Xue Haoru Tan Wenqing Zhang Yingchen Yu Song Bai Xiaojuan Qi 50 4 0 22 Feb 2024
SRNDiff: Short-term Rainfall Nowcasting with Condition Diffusion Model Xudong Ling Chaorong Li Fengqing Qin Peng Yang Yuanyuan Huang DiffM AI4Cl 77 5 0 21 Feb 2024
DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation Chong Zeng Yue Dong Pieter Peers Youkang Kong Hongzhi Wu Xin Tong 126 35 0 19 Feb 2024
ComFusion: Personalized Subject Generation in Multiple Specific Scenes From Single Image Yan Hong Jianfu Zhang DiffM 102 3 0 19 Feb 2024
Dynamic and Super-Personalized Media Ecosystem Driven by Generative AI: Unpredictable Plays Never Repeating The Same Sungjun Ahn Hyun-Jeong Yim Youngwan Lee Sung-Ik Park VGen 92 4 0 19 Feb 2024
Universal Prompt Optimizer for Safe Text-to-Image Generation Zongyu Wu Hongcheng Gao Yueze Wang Xiang Zhang Suhang Wang EGVM 76 11 0 16 Feb 2024
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data Mateusz Lajszczak Guillermo Cámbara Yang Li Fatih Beyhan Arent van Korlaar ... Bartosz Putrycz Soledad López Gambino Kayeon Yoo Elena Sokolova Thomas Drugman LM&MA 113 88 0 12 Feb 2024
Descanning: From Scanned to the Original Images with a Color Correction Diffusion Model Junghun Cha Ali Haider Seoyun Yang Hoeyeong Jin Subin Yang A. Uddin Jaehyoung Kim Soo Ye Kim Sung-Ho Bae DiffM 84 2 0 08 Feb 2024
Entropy-regularized Diffusion Policy with Q-Ensembles for Offline Reinforcement Learning Ruoqing Zhang Ziwei Luo Jens Sjölund Thomas B. Schön Per Mattsson 102 13 0 06 Feb 2024
Unified Hallucination Detection for Multimodal Large Language Models Xiang Chen Chenxi Wang Yida Xue Ningyu Zhang Xiaoyan Yang Qian Li Yue Shen Lei Liang Jinjie Gu Huajun Chen HILM 125 45 0 05 Feb 2024
Detecting Out-of-Distribution Objects through Class-Conditioned Inpainting Quang-Huy Nguyen Jin Peng Zhou Zhenzhen Liu Khanh-Huyen Bui Kilian Q. Weinberger Wei-Lun Chao Dung D. Le 84 1 0 05 Feb 2024
Common Sense Reasoning for Deepfake Detection Yue Zhang Ben Colman Xiao Guo Ali Shahriyari Gaurav Bharaj 143 35 0 31 Jan 2024
Spatial-Aware Latent Initialization for Controllable Image Generation Wenqiang Sun Tengtao Li Zehong Lin Jun Zhang 94 11 0 29 Jan 2024
Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You Felix Friedrich Katharina Hämmerl P. Schramowski Manuel Brack Jindrich Libovický Kristian Kersting Alexander Fraser EGVM 151 14 0 29 Jan 2024
CCA: Collaborative Competitive Agents for Image Editing Tiankai Hang Shuyang Gu Dong Chen Xin Geng Baining Guo 164 5 0 23 Jan 2024
Text-to-Image Cross-Modal Generation: A Systematic Review Maciej Żelaszczyk Jacek Mańdziuk 97 4 0 21 Jan 2024
MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation Nhat M. Hoang Kehong Gong Chuan Guo Michael Bi Mi DiffM 68 8 0 20 Jan 2024
Vlogger: Make Your Dream A Vlog Shaobin Zhuang Kunchang Li Xinyuan Chen Yaohui Wang Ziwei Liu Yu Qiao Yali Wang VGen DiffM 81 39 0 17 Jan 2024
A New Creative Generation Pipeline for Click-Through Rate with Stable Diffusion Model Hao Yang Jianxin Yuan Shuai Yang Linhe Xu Shuo Yuan Yifan Zeng 81 11 0 17 Jan 2024
HexaGen3D: StableDiffusion is just one step away from Fast and Diverse Text-to-3D Generation Antoine Mercier Ramin Nakhli Mahesh Reddy R. Yasarla Hong Cai Fatih Porikli Guillaume Berger DiffM 97 16 0 15 Jan 2024
Towards Efficient Diffusion-Based Image Editing with Instant Attention Masks Siyu Zou Jiji Tang Yiyi Zhou Jing He Chaoyi Zhao Rongsheng Zhang Zhipeng Hu Xiaoshuai Sun 111 11 0 15 Jan 2024
Collaboratively Self-supervised Video Representation Learning for Action Recognition Jie Zhang Zhifan Wan Lanqing Hu Stephen Lin Shuzhe Wu Shiguang Shan TTA 163 1 0 15 Jan 2024
360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model Qian Wang Weiqi Li Chong Mou Xinhua Cheng Jian Zhang VGen 107 20 0 12 Jan 2024
EDA-DM: Enhanced Distribution Alignment for Post-Training Quantization of Diffusion Models Xuewen Liu Zhikai Li Junrui Xiao Mengjuan Chen Jianquan Li Qingyi Gu MQ 126 14 0 09 Jan 2024
Latte: Latent Diffusion Transformer for Video Generation Xin Ma Yaohui Wang Gengyun Jia Xinyuan Chen Ziqiang Liu Yuan-Fang Li Cunjian Chen Yu Qiao DiffM VGen 286 279 0 05 Jan 2024
VASE: Object-Centric Appearance and Shape Manipulation of Real Videos E. Peruzzo Vidit Goel Dejia Xu Xingqian Xu Yi Ding Zhangyang Wang Humphrey Shi N. Sebe LM&Ro VGen DiffM 122 12 0 04 Jan 2024
Joint Generative Modeling of Scene Graphs and Images via Diffusion Models Bicheng Xu Qi Yan Renjie Liao Lele Wang Leonid Sigal DiffM 80 3 0 02 Jan 2024
SynCDR : Training Cross Domain Retrieval Models with Synthetic Data Samarth Mishra Carlos D. Castillo Hongcheng Wang Kate Saenko Venkatesh Saligrama 80 1 0 31 Dec 2023
Cross Initialization for Personalized Text-to-Image Generation Lianyu Pang Jian Yin Haoran Xie Qiping Wang Qing Li Xudong Mao DiffM 94 7 0 26 Dec 2023
Prompt-Propose-Verify: A Reliable Hand-Object-Interaction Data Generation Framework using Foundational Models Gurusha Juneja Sukrit Kumar DiffM 33 0 0 23 Dec 2023