Title
ADiff4TPP: Asynchronous Diffusion Models for Temporal Point Processes Amartya Mukherjee Ruizhi Deng He Zhao Yuzhen Mao Leonid Sigal Frederick Tung DiffM AI4TS 53 0 0 29 Apr 2025
PRISM-DP: Spatial Pose-based Observations for Diffusion-Policies via Segmentation, Mesh Generation, and Pose Tracking Xiatao Sun Yinxing Chen Daniel Rakita VGen 60 0 0 29 Apr 2025
X-Fusion: Introducing New Modality to Frozen Large Language Models Sicheng Mo Thao Nguyen Xun Huang Siddharth Srinivasan Iyer Yijun Li ... Eli Shechtman Krishna Kumar Singh Yong Jae Lee Bolei Zhou Yuheng Li 77 0 0 29 Apr 2025
RepText: Rendering Visual Text via Replicating Haozhao Wang Yongjun Xu Yongqian Li Jiajun Li Chaowei Zhang J. Wang Kejia Yang Z. Chen VLM 66 0 0 28 Apr 2025
SynergyAmodal: Deocclude Anything with Text Control Xinyang Li Chengjie Yi Jiawei Lai Mingbao Lin Yansong Qu Shengchuan Zhang Liujuan Cao DiffM 73 0 0 28 Apr 2025
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer Junpeng Jiang Gangyi Hong Miao Zhang Hengtong Hu Kun Zhan Rui Shao Liqiang Nie VGen 51 0 0 28 Apr 2025
IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos Yuan Li Ziqian Bai Feitong Tan Zhaopeng Cui S. Fanello Yinda Zhang DiffM VGen 57 0 0 27 Apr 2025
Learning to Drive from a World Model Mitchell Goff Greg Hogan George Hotz Armand du Parc Locmaria Kacper Raczy Harald Schäfer Adeeb Shihadeh Weixing Zhang Yassine Yousfi 39 0 0 27 Apr 2025
REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models Gal Almog Ariel Shamir Ohad Fried DiffM 63 0 0 26 Apr 2025
TextTIGER: Text-based Intelligent Generation with Entity Prompt Refinement for Text-to-Image Generation Shintaro Ozaki Kazuki Hayashi Yusuke Sakai Jingun Kwon Hidetaka Kamigaito Katsuhiko Hayashi Manabu Okumura Taro Watanabe VLM 88 0 0 25 Apr 2025
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models Xu Ma Peize Sun Haoyu Ma Hao Tang Chih-Yao Ma ... Matt Feiszli Peizhao Zhang Peter Vajda Sam S. Tsai Y. Fu 68 1 0 24 Apr 2025
Dual Prompting Image Restoration with Diffusion Transformers Dehong Kong Fan Li Zhixin Wang Jiaqi Xu Renjing Pei W. J. Li Wenqi Ren DiffM 69 0 0 24 Apr 2025
Step1X-Edit: A Practical Framework for General Image Editing S. Liu Yucheng Han Peng Xing Fukun Yin Rui Wang ... Yibo Zhu Binxing Jiao Xuzhi Zhang Gang Yu Daxin Jiang DiffM 108 3 0 24 Apr 2025
Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light Ali Hassani Fengzhe Zhou Aditya Kane Jiannan Huang Chieh-Yun Chen ... Bing Xu Haicheng Wu Wen-mei W. Hwu Xuan Li Humphrey Shi 28 0 0 23 Apr 2025
DreamO: A Unified Framework for Image Customization Chong Mou Yanze Wu Wenxu Wu Zinan Guo Pengze Zhang ... Shaojin Wu Songtao Zhao Jian Zhang Qian He Xinglong Wu 49 0 0 23 Apr 2025
UrbanPlanBench: A Comprehensive Urban Planning Benchmark for Evaluating Large Language Models Yu Zheng Longyi Liu Yuming Lin Jie Feng Guozhen Zhang Depeng Jin Yong Li ELM 73 0 0 23 Apr 2025
Subject-driven Video Generation via Disentangled Identity and Motion Daneul Kim Jingxu Zhang W. Jin Sunghyun Cho Qi Dai Jaesik Park Chong Luo DiffM VGen 115 0 0 23 Apr 2025
DiTPainter: Efficient Video Inpainting with Diffusion Transformers Xian Wu Chang Liu DiffM 26 0 0 22 Apr 2025
FreeGraftor: Training-Free Cross-Image Feature Grafting for Subject-Driven Text-to-Image Generation Zebin Yao Lei Ren Huixing Jiang Chen Wei Xiaojie Wang Ruifan Li Fangxiang Feng DiffM 76 0 0 22 Apr 2025
$$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization$ $π_{0.5}$ : a Vision-Language-Action Model with Open-World Generalization Physical Intelligence Kevin Black Noah Brown James Darpinian Karan Dhabalia ... Homer Walke Anna Walling Haohuan Wang Lili Yu Ury Zhilinsky LM&Ro VLM 39 10 0 22 Apr 2025
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning Le Zhuo Liangbing Zhao Sayak Paul Yue Liao Renrui Zhang Yi Xin Peng Gao Mohamed Elhoseiny Hao Li VLM 75 0 0 22 Apr 2025
Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning Wang Lin Liyu Jia Wentao Hu Kaihang Pan Zhongqi Yue Wei Zhao Jingyuan Chen Fei Wu Hanwang Zhang VGen 46 1 0 22 Apr 2025
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild Jingkai Zhou Yifan Wu Shikai Li Min Wei Chao Fan Weihua Chen Wei Jiang Fan Wang VGen 43 1 0 21 Apr 2025
"I Know It When I See It": Mood Spaces for Connecting and Expressing Visual Concepts Huzheng Yang Katherine Xu Michael D. Grossberg Yutong Bai Jianbo Shi 36 0 0 21 Apr 2025
DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation Weijie He Mushui Liu Yunlong Yu Zhao Wang Chao Wu DiffM VGen 64 0 0 21 Apr 2025
Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration Junyuan Deng Xinyi Wu Yongxing Yang Congchao Zhu Song Wang Zhenyao Wu 38 0 0 21 Apr 2025
SUDO: Enhancing Text-to-Image Diffusion Models with Self-Supervised Direct Preference Optimization Liang Peng Boxi Wu Haoran Cheng Yibo Zhao Xiaofei He 36 0 0 20 Apr 2025
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens Kaihang Pan Wang Lin Zhongqi Yue Tenglong Ao Liyu Jia Wei Zhao Juncheng Billy Li Siliang Tang Hanwang Zhang 49 2 0 20 Apr 2025
Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis Jingjing Ren Wenbo Li Zhongdao Wang Haoze Sun Bangzhen Liu ... Aoxue Li Shifeng Zhang Bin Shao Yong Guo Lei Zhu VGen 43 0 0 20 Apr 2025
Towards NSFW-Free Text-to-Image Generation via Safety-Constraint Direct Preference Optimization Shouwei Ruan Zhenyu Wu Yao Huang Ruochen Zhang Yitong Sun Caixin Kang Xingxing Wei EGVM 37 0 0 19 Apr 2025
Towards Explainable Fake Image Detection with Multi-Modal Large Language Models Yikun Ji Y. Hong Jiahui Zhan H. Chen Jun Lan Huijia Zhu Weiqiang Wang L. Zhang Jianfu Zhang MLLM LRM 51 0 0 19 Apr 2025
LLM-Enabled Style and Content Regularization for Personalized Text-to-Image Generation Anran Yu Wei Feng Yuhang Zhang Xiang Li Lei Meng Lei Wu X. Meng DiffM 22 0 0 19 Apr 2025
PRISM: A Unified Framework for Photorealistic Reconstruction and Intrinsic Scene Modeling Alara Dirik Tuanfeng Y. Wang Duygu Ceylan Stefanos Zafeiriou Anna Frühstück DiffM 47 0 0 19 Apr 2025
Learning Joint ID-Textual Representation for ID-Preserving Image Synthesis Zichuan Liu Liming Jiang Qing Yan Yumin Jia Hao Kang Xin Lu DiffM 31 0 0 19 Apr 2025
Early Timestep Zero-Shot Candidate Selection for Instruction-Guided Image Editing Joowon Kim Ziseok Lee Donghyeon Cho Sanghyun Jo Y. Jung Kyungsu Kim Eunho Yang DiffM 45 0 0 18 Apr 2025
ESPLoRA: Enhanced Spatial Precision with Low-Rank Adaption in Text-to-Image Diffusion Models for High-Definition Synthesis Andrea Rigo Luca Stornaiuolo Mauro Martino Bruno Lepri N. Sebe 48 0 0 18 Apr 2025
U-Shape Mamba: State Space Model for faster diffusion Alex Ergasti Filippo Botti Tomaso Fontanini Claudio Ferrari Massimo Bertozzi Andrea Prati Mamba 92 0 0 18 Apr 2025
MusFlow: Multimodal Music Generation via Conditional Flow Matching Jiahao Song Yuzhao Wang 37 0 0 18 Apr 2025
Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation Fulvio Sanguigni Davide Morelli Marcella Cornia Rita Cucchiara DiffM 38 0 0 18 Apr 2025
On the minimax optimality of Flow Matching through the connection to kernel density estimation Lea Kunkel Mathias Trabs 37 0 0 17 Apr 2025
Enhancing Person-to-Person Virtual Try-On with Multi-Garment Virtual Try-Off Riza Velioglu Petra Bevandic Robin Chan Barbara Hammer DiffM 33 0 0 17 Apr 2025
Science-T2I: Addressing Scientific Illusions in Image Synthesis Jialuo Li Wenhao Chai Xingyu Fu Haiyang Xu Saining Xie MedIm 40 0 0 17 Apr 2025
Probing and Inducing Combinational Creativity in Vision-Language Models Yongqian Peng Yuxi Ma Mengmeng Wang Yuxuan Wang Yizhou Wang C. Zhang Yixin Zhu Zilong Zheng MLLM CoGe 87 0 0 17 Apr 2025
UniEdit-Flow: Unleashing Inversion and Editing in the Era of Flow Models Guanlong Jiao Biqing Huang Kuan-Chieh Wang Renjie Liao DiffM 82 0 0 17 Apr 2025
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts Leyang Li Shilin Lu Yan Ren A. Kong DiffM 46 1 0 17 Apr 2025
IMAGGarment-1: Fine-Grained Garment Generation for Controllable Fashion Design Fei Shen Jian Yu Cong Wang Xin Jiang Xiaoyu Du J. Tang AI4CE 56 1 0 17 Apr 2025
SkyReels-V2: Infinite-length Film Generative Model Guibin Chen D. Lin Jiangping Yang Chunze Lin J. Zhu ... Di Qiu Debang Li Zhengcong Fei Yang Li Yahui Zhou DiffM VGen 56 1 0 17 Apr 2025
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation Bingjie Gao Xinyu Gao Xiaoxue Wu Yujie Zhou Yu Qiao Li Niu Xinyuan Chen Yaohui Wang 76 0 0 16 Apr 2025
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging Tianhui Song Weixin Feng Shuai Wang X. Li Tiezheng Ge Bo Zheng Limin Wang MoMe 62 0 0 16 Apr 2025
Instruction-augmented Multimodal Alignment for Image-Text and Element Matching Xinli Yue Jianhui Sun Junda Lu Liangchao Yao Fan Xia Tianyi Wang Fengyun Rao Jing Lyu Yuetang Deng 25 0 0 16 Apr 2025