Title
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models Jinjin Zhang Qiuyu Huang Junjie Liu Xiefan Guo Di Huang 59 2 0 24 Mar 2025
From Fragment to One Piece: A Survey on AI-Driven Graphic Design Xingxing Zou Wen Zhang Nanxuan Zhao 56 0 0 24 Mar 2025
TCFG: Tangential Damping Classifier-free Guidance Mingi Kwon Shin seong Kim Jaeseok Jeong. Yi Ting Hsiao Youngjung Uh DiffM 65 0 0 23 Mar 2025
Serial Low-rank Adaptation of Vision Transformer Houqiang Zhong Shaocheng Shen Ke Cai Zhenglong Wu Jiangchao Yao Yuan Cheng Xuefei Li Xiaoyun Zhang Li-Na Song Qiang Hu 44 0 0 22 Mar 2025
TDRI: Two-Phase Dialogue Refinement and Co-Adaptation for Interactive Image Generation Yuheng Feng Jianhui Wang Kun Li Sida Li Tianyu Shi Haoyue Han Miao Zhang Xueqian Wang DiffM 149 0 0 22 Mar 2025
Guidance Free Image Editing via Explicit Conditioning Mehdi Noroozi Alberto Gil C. P. Ramos Luca Morreale Ruchika Chavhan Malcolm Chadwick Abhinav Mehrotra Sourav Bhattacharya DiffM 56 0 0 22 Mar 2025
Halton Scheduler For Masked Generative Image Transformer Victor Besnier Mickael Chen David Hurych Eduardo Valle Matthieu Cord 52 1 0 21 Mar 2025
Zero-Shot Styled Text Image Generation, but Make It Autoregressive Vittorio Pippi Fabio Quattrini S. Cascianelli Alessio Tonioni Rita Cucchiara 42 0 0 21 Mar 2025
ARFlow: Human Action-Reaction Flow Matching with Physical Guidance Wentao Jiang Jingya Wang Haotao Lu Kaiyang Ji Baoxiong Jia Siyuan Huang Ye-ling Shi 44 0 0 21 Mar 2025
UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models Fanghua Yu Jinjin Gu Jinfan Hu Zheyuan Li Chao Dong DiffM 55 0 0 21 Mar 2025
What's Producible May Not Be Reachable: Measuring the Steerability of Generative Models Keyon Vafa Sarah Bentley Jon M. Kleinberg S. Mullainathan 38 0 0 21 Mar 2025
A Recipe for Generating 3D Worlds From a Single Image Katja Schwarz Denys Rozumnyi Samuel Rota Buló Lorenzo Porzi Peter Kontschieder VGen 79 1 0 20 Mar 2025
Scale-wise Distillation of Diffusion Models Nikita Starodubcev Denis Kuznedelev Artem Babenko Dmitry Baranchuk DiffM 53 0 0 20 Mar 2025
EDiT: Efficient Diffusion Transformers with Linear Compressed Attention Philipp Becker Abhinav Mehrotra Ruchika Chavhan Malcolm Chadwick Luca Morreale Mehdi Noroozi Alberto Gil C. P. Ramos Sourav Bhattacharya 46 0 0 20 Mar 2025
EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation Zihao Zhang Haoran Chen Haoyu Zhao Guansong Lu Yanwei Fu Hang Xu Zuxuan Wu VGen DiffM 71 0 0 20 Mar 2025
Repurposing 2D Diffusion Models with Gaussian Atlas for 3D Generation Tiange Xiang Kai Li Chengjiang Long Christian Hane Peihong Guo Scott Delp Ehsan Adeli L. Fei-Fei DiffM 3DGS 53 0 0 20 Mar 2025
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling Hyojun Go Byeongjun Park Hyelin Nam Byung-Hoon Kim Hyungjin Chung Changick Kim 3DGS VGen 96 1 0 20 Mar 2025
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity Liming Jiang Qing Yan Yumin Jia Zichuan Liu Hao Kang Xin Lu 49 1 0 20 Mar 2025
BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers Hui Zhang Tingwei Gao Jie Shao Zuxuan Wu 69 0 0 20 Mar 2025
FreeFlux: Understanding and Exploiting Layer-Specific Roles in RoPE-Based MMDiT for Versatile Image Editing Tianyi Wei Yifan Zhou Dongdong Chen Xingang Pan 77 0 0 20 Mar 2025
World Knowledge from AI Image Generation for Robot Control Jonas Krumme C. Zetzsche LM&Ro 55 0 0 20 Mar 2025
Temporal Regularization Makes Your Video Generator Stronger Harold Haodong Chen Haojian Huang Xianfeng Wu Yexin Liu Yajing Bai Wen-Jie Shu Harry Yang Ser-Nam Lim VGen 81 2 0 19 Mar 2025
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzciñski Benjamin Eysenbach SSL OffRL 69 0 0 19 Mar 2025
POSTA: A Go-to Framework for Customized Artistic Poster Generation Haoyu Chen Xiaojie Xu Wenbo Li Jingjing Ren Tian Ye Songhua Liu Ying Chen Lei Zhu Xinchao Wang DiffM 57 1 0 19 Mar 2025
TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models Teng-Fang Hsiao Bo-Kai Ruan Yi-Lun Wu Tzu-Ling Lin Hong-Han Shuai VLM 50 0 0 19 Mar 2025
Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization Feifei Li Mi Zhang Yiming Sun Min Yang DiffM 53 1 0 19 Mar 2025
Cube: A Roblox View of 3D Intelligence Foundation AI Team Roblox Kiran Bhat Nishchaie Khanna Karun Channa Tinghui Zhou ... Kyle Price Steve Han Yiqing Wang A. Singh David Baszucki 63 0 0 19 Mar 2025
Efficient Personalization of Quantized Diffusion Model without Backpropagation H. Seo Wongi Jeong Kyungryeol Lee Se Young Chun DiffM MQ 78 0 0 19 Mar 2025
FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers Ruichen Chen Keith G. Mills Di Niu MQ 56 0 0 19 Mar 2025
Unlocking the Capabilities of Vision-Language Models for Generalizable and Explainable Deepfake Detection Peipeng Yu Jianwei Fei Hui Gao Xuan Feng Zhihua Xia Chip-Hong Chang MLLM VLM 81 1 0 19 Mar 2025
ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing Yulin Pan Xiangteng He Chaojie Mao Zhen Han Zeyinzi Jiang J. Zhang Yu Liu EGVM VLM 78 1 0 18 Mar 2025
The Power of Context: How Multimodality Improves Image Super-Resolution Kangfu Mei Hossein Talebi Mojtaba Ardakani Vishal M. Patel P. Milanfar M. Delbracio DiffM 82 1 0 18 Mar 2025
Deeply Supervised Flow-Based Generative Models Inkyu Shin Chenglin Yang Liang-Chieh Chen 63 0 0 18 Mar 2025
SIR-DIFF: Sparse Image Sets Restoration with Multi-View Diffusion Model Yucheng Mao Boyang Wang Nilesh Kulkarni Jeong Joon Park DiffM 58 0 0 18 Mar 2025
ShapeShift: Towards Text-to-Shape Arrangement Synthesis with Content-Aware Geometric Constraints Vihaan Misra Peter Schaldenbrand Jean Oh DiffM 59 1 0 18 Mar 2025
FiVE: A Fine-grained Video Editing Benchmark for Evaluating Emerging Diffusion and Rectified Flow Models Minghan Li C. Xie Yongpeng Wu Lei Zhang Hao Wu DiffM VGen 59 0 0 17 Mar 2025
Edit Transfer: Learning Image Editing via Vision In-Context Relations Lan Chen Qi Mao Yuchao Gu Mike Zheng Shou 56 1 0 17 Mar 2025
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark Forouzan Fallah Maitreya Patel Agneet Chatterjee Vlad I. Morariu Chitta Baral Yezhou Yang CoGe 61 0 0 17 Mar 2025
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models Dewei Zhou Mingwei Li Zongxin Yang Yi Yang 94 0 0 17 Mar 2025
Adams Bashforth Moulton Solver for Inversion and Editing in Rectified Flow Yongjia Ma Donglin Di Xuan Liu Xiaokai Chen Lei Fan Wei Chen Tonghua Su 47 0 0 17 Mar 2025
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing Yaowei Li Lingen Li Zhaoyang Zhang Xiaoyu Li Guangzhi Wang Hongxiang Li Xiaodong Cun Ying Shan Yuexian Zou DiffM 67 1 0 17 Mar 2025
Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation Yihong Luo Tianyang Hu Weijian Luo Kenji Kawaguchi Jing Tang EGVM 159 0 0 17 Mar 2025
EditID: Training-Free Editable ID Customization for Text-to-Image Generation Guandong Li Zhaobin Chu DiffM 67 0 0 16 Mar 2025
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing Tsu-jui Fu Yusu Qian Chen Chen Wenze Hu Zhe Gan Yuqing Yang 100 1 0 16 Mar 2025
Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection Shufan Li Konstantinos Kallidromitis Akash Gokul Arsh Koneru Yusuke Kato Kazuki Kozuka Aditya Grover VLM 70 1 0 15 Mar 2025
Tailor: An Integrated Text-Driven CG-Ready Human and Garment Generation System Zhiyao Sun Yu-Hui Wen Matthieu Lin Ho-Jui Fang Sheng Ye Tian Lv Yong-Jin Liu 85 0 0 15 Mar 2025
DecompDreamer: Advancing Structured 3D Asset Generation with Multi-Object Decomposition and Gaussian Splatting Utkarsh Nath Rajeev Goel Rahul Khurana Kyle Min Mark Ollila P. Turaga Varun Jampani Tejaswi Gowda 3DGS 44 0 0 15 Mar 2025
AugGen: Synthetic Augmentation Can Improve Discriminative Models Parsa Rahimi Damien Teney S´ebastien Marcel 69 0 0 14 Mar 2025
Quantifying Interpretability in CLIP Models with Concept Consistency Avinash Madasu Vasudev Lal Phillip Howard VLM 69 0 0 14 Mar 2025
Direction-Aware Diagonal Autoregressive Image Generation Yijia Xu Jianzhong Ju Jian Luan J. Cui 57 0 0 14 Mar 2025