Title
Few-Step Diffusion via Score identity Distillation Mingyuan Zhou Yi Gu Zhendong Wang 5 0 0 19 May 2025
Few-Shot Anomaly-Driven Generation for Anomaly Classification and Segmentation Guan Gui Bin-Bin Gao Xiaozhong Liu Chengjie Wang Yongpeng Wu DiffM 31 0 0 14 May 2025
Addressing degeneracies in latent interpolation for diffusion models Erik Landolsi Fredrik Kahl DiffM 45 0 0 12 May 2025
BridgeIV: Bridging Customized Image and Video Generation through Test-Time Autoregressive Identity Propagation Panwen Hu Jiehui Huang Qiang Sun Xiaodan Liang DiffM VGen 28 0 0 11 May 2025
ProFashion: Prototype-guided Fashion Video Generation with Multiple Reference Images Xianghao Kong Qiaosong Qi Yuanbin Wang Anyi Rao Biaolong Chen Aixi Zhang Si Liu Hao Jiang DiffM VGen 25 0 0 10 May 2025
Demystifying Diffusion Policies: Action Memorization and Simple Lookup Table Alternatives Chengyang He Xu Liu Gadiel Sznaier Camps Guillaume Sartoretti Mac Schwager 28 0 0 09 May 2025
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing Ming Li Xin Gu Fan Chen X. Xing Longyin Wen Cheng Chen Sijie Zhu DiffM 81 1 0 05 May 2025
Rethinking Score Distilling Sampling for 3D Editing and Generation Xingyu Miao Haoran Duan Yang Long J. Han 46 0 0 03 May 2025
Visual Text Processing: A Comprehensive Review and Unified Evaluation Yan Shu Weichao Zeng Fangmin Zhao Zeyu Chen Ziniu Li ... Paolo Rota Xiang Bai Lianwen Jin Xu-Cheng Yin N. Sebe CoGe 61 0 0 30 Apr 2025
Text-to-Image Alignment in Denoising-Based Models through Step Selection P. Grimal Hervé Le Borgne Olivier Ferret DiffM EGVM 48 0 0 24 Apr 2025
Efficient Temporal Consistency in Diffusion-Based Video Editing with Adaptor Modules: A Theoretical Framework Xinyuan Song Yangfan He Sida Li Jun Wang Hongyang He ... Keqin Li Kuan Lu Menghao Huo Binxu Li Pei Liu DiffM 37 0 0 22 Apr 2025
"I Know It When I See It": Mood Spaces for Connecting and Expressing Visual Concepts Huzheng Yang Katherine Xu Michael D. Grossberg Yutong Bai Jianbo Shi 36 0 0 21 Apr 2025
Point-Driven Interactive Text and Image Layer Editing Using Diffusion Models Zhenyu Yu Mohd Yamani Idna Idris Pei Wang Yuelong Xia DiffM 26 0 0 18 Apr 2025
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging Tianhui Song Weixin Feng Shuai Wang Xinfeng Li Tiezheng Ge Bo Zheng Limin Wang MoMe 62 0 0 16 Apr 2025
Early-Bird Diffusion: Investigating and Leveraging Timestep-Aware Early-Bird Tickets in Diffusion Models for Efficient Training Lexington Whalen Zhenbang Du Haoran You Chaojian Li Sixu Li Yingyan 41 0 0 13 Apr 2025
PixelFlow: Pixel-Space Generative Models with Flow Shoufa Chen Chongjian Ge Shilong Zhang Peize Sun Ping Luo VLM DRL 37 0 0 10 Apr 2025
PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering Y. Gao Zihang Lin Chuanbin Liu Min Zhou T. Ge Bo Zheng Hongtao Xie DiffM 40 0 0 09 Apr 2025
Multi-identity Human Image Animation with Structural Video Diffusion Zhenzhi Wang Yicong Li Yanhong Zeng Yuwei Guo Dahua Lin Tianfan Xue Bo Dai VGen 24 0 0 05 Apr 2025
MD-ProjTex: Texturing 3D Shapes with Multi-Diffusion Projection Ahmet Burak Yildirim Mustafa Utku Aydogdu Duygu Ceylan Aysegül Dündar DiffM 50 1 0 03 Apr 2025
Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis Zixuan Wang Duo Peng Feng Chen Yi Yang Yinjie Lei DiffM 79 0 0 02 Apr 2025
Training-Free Text-Guided Image Editing with Visual Autoregressive Model Yufei Wang Lanqing Guo Z. Li Jiaxing Huang Pichao Wang Bihan Wen J. Wang DiffM 65 1 0 31 Mar 2025
Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis Woojung Han Yeonkyung Lee Chanyoung Kim Kwanghyun Park Seong Jae Hwang DiffM 62 0 0 28 Mar 2025
ORIGEN: Zero-Shot 3D Orientation Grounding in Text-to-Image Generation Yunhong Min Daehyeon Choi Kyeongmin Yeo Jihyun Lee Minhyuk Sung 51 0 0 28 Mar 2025
Optimal Stepsize for Diffusion Sampling Jianning Pei Han Hu Shuyang Gu 48 0 0 27 Mar 2025
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing Fan Qi Yu Duan Changsheng Xu DiffM 60 0 0 27 Mar 2025
Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving Lucas Nunes Rodrigo Marcuzzi Jens Behley C. Stachniss 3DPC 83 0 0 27 Mar 2025
InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment Yaojie Lu Qichao Wang H. Cao Xierui Wang Xiaoyin Xu Min Zhang 64 0 0 24 Mar 2025
OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models Dvir Samuel Matan Levy N. Darshan Gal Chechik Rami Ben-Ari DiffM 67 0 0 23 Mar 2025
Efficient Personalization of Quantized Diffusion Model without Backpropagation H. Seo Wongi Jeong Kyungryeol Lee Se Young Chun DiffM MQ 78 0 0 19 Mar 2025
CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models Yuyang Xue Edward Moroshko Feng Chen Steven G. McDonagh Steven McDonagh Sotirios A. Tsaftaris 56 1 0 18 Mar 2025
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models Dewei Zhou Mingwei Li Zongxin Yang Yi Yang 94 0 0 17 Mar 2025
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark Forouzan Fallah Maitreya Patel Agneet Chatterjee Vlad I. Morariu Chitta Baral Yezhou Yang CoGe 61 0 0 17 Mar 2025
RASA: Replace Anyone, Say Anything -- A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing Tianrui Pan Lin Liu Jie Liu Xiaotian Zhang J. Tang Gangshan Wu Q. Tian DiffM VGen 53 0 0 14 Mar 2025
Piece it Together: Part-Based Concepting with IP-Priors Elad Richardson Kfir Goldberg Yuval Alaluf Daniel Cohen-Or DiffM 66 0 0 13 Mar 2025
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation Junsong Chen Shuchen Xue Yuyang Zhao Jincheng Yu Sayak Paul Junyu Chen Han Cai E. Xie Enze Xie VLM 66 2 0 12 Mar 2025
MGHanD: Multi-modal Guidance for authentic Hand Diffusion Taehyeon Eum Jieun Choi Tae-Kyun Kim 52 0 0 11 Mar 2025
FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset Shuhe Wang Xiaoya Li Jiwei Li G. Wang Xiaofei Sun ... Han Qiu Mo Yu Shengjie Shen Tianwei Zhang Eduard H. Hovy VLM 63 0 0 10 Mar 2025
TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision Shaobin Zhuang Yiwei Guo Yanbo Ding Kunchang Li Xinyuan Chen Yaohui Wang Fangyikang Wang Ying Zhang Chen Li Y. Wang 45 0 0 10 Mar 2025
Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation Amir Mohammad Izadi Seyed Mohsen Hosseini Soroush Vafaie Tabar Ali Abdollahi Armin Saghafian M. Baghshah EGVM 45 0 0 09 Mar 2025
X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation Jian Ma Qirong Peng Xu Guo Chen Chen H. Lu Zhenyu Yang VLM 72 1 0 08 Mar 2025
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles Rui Zhao Weijia Mao Mike Zheng Shou 66 0 0 05 Mar 2025
WeGen: A Unified Model for Interactive Multimodal Generation as We Chat Zhipeng Huang Shaobin Zhuang Canmiao Fu Binxin Yang Ying Zhang Chong Sun Zhizheng Zhang Yali Wang Chen Li Zheng-Jun Zha DiffM 69 1 0 03 Mar 2025
Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator Kaiwen Zheng Yongxin Chen Huayu Chen Guande He Xuan Li Jun Zhu Qinsheng Zhang DiffM 49 0 0 03 Mar 2025
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations Ziyang Zhang Yang Yu Yucheng Chen Xulei Yang S. Yeo MedIm 56 1 0 02 Mar 2025
FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute Sotiris Anagnostidis Gregor Bachmann Yeongmin Kim Jonas Kohler Markos Georgopoulos A. Sanakoyeu Yuming Du Albert Pumarola Ali K. Thabet Edgar Schönfeld 92 0 0 27 Feb 2025
HumanGif: Single-View Human Diffusion with Generative Prior Shoukang Hu Takuya Narihira Kazumi Fukuda Ryosuke Sawata Takashi Shibuya Yuki Mitsufuji 98 1 0 24 Feb 2025
Human2Robot: Learning Robot Actions from Paired Human-Robot Videos Sicheng Xie Haidong Cao Zejia Weng Zhen Xing Shiwei Shen Jiaqi Leng Xipeng Qiu Yanwei Fu Zuxuan Wu Yu Jiang 56 0 0 23 Feb 2025
PersGuard: Preventing Malicious Personalization via Backdoor Attacks on Pre-trained Text-to-Image Diffusion Models Xinwei Liu Xiaojun Jia Yuan Xun Hua Zhang Xiaochun Cao DiffM AAML 49 0 0 22 Feb 2025
Accelerating Diffusion Transformers with Token-wise Feature Caching Chang Zou Xuyang Liu Ting Liu Siteng Huang Linfeng Zhang 54 14 0 20 Feb 2025
SMITE: Segment Me In TimE Amirhossein Alimohammadi Sauradip Nag Saeid Asgari Taghanaki Andrea Tagliasacchi Ghassan Hamarneh Ali Mahdavi-Amiri VLM VOS 137 2 0 20 Feb 2025