Title
Few-Step Diffusion via Score identity Distillation Mingyuan Zhou Yi Gu Zhendong Wang 9 0 0 19 May 2025
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free Zihan Qiu Zhaoxiang Wang Bo Zheng Zeyu Huang Kaiyue Wen ... Fei Huang Suozhi Huang Dayiheng Liu Jingren Zhou Junyang Lin MoE 28 0 0 10 May 2025
MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation Mingcheng Li Xiaolu Hou Ziyang Liu Dingkang Yang Ziyun Qian Jiawei Chen Jinjie Wei Y. Jiang Qingyao Xu Li Zhang DiffM 177 0 0 05 May 2025
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation D. Zhang Che Jiang Ruoshi Xu Biaoxiang Chen Zijian Jin Yutian Lu Jianguo Zhang Liang Yong Jiebo Luo Shengda Luo VLM 47 0 0 02 May 2025
Personalized Text-to-Image Generation with Auto-Regressive Models Kaiyue Sun Xian Liu Yao Teng Xihui Liu 38 0 0 17 Apr 2025
InstructEngine: Instruction-driven Text-to-Image Alignment Xingyu Lu Yihan Hu Yang Zhang Kaiyu Jiang Changyi Liu ... Bin Wen C. Yuan Fan Yang Tingting Gao Di Zhang 48 0 0 14 Apr 2025
HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance Jiazi Bu Pengyang Ling Yujie Zhou Pan Zhang Tong Wu Xiaoyi Dong Yuhang Zang Yuhang Cao Dahua Lin Jiaqi Wang 23 0 0 08 Apr 2025
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning Xianwei Zhuang Yuxin Xie Yufan Deng Dongchao Yang Liming Liang Jinghan Ru Yuguo Yin Yuexian Zou 71 2 0 03 Apr 2025
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement Runhui Huang Chunwei Wang Junwei Yang Guansong Lu Yunlong Yuan ... Lu Hou Wei Zhang Lanqing Hong Hengshuang Zhao Hang Xu MLLM 92 3 0 02 Apr 2025
Less-to-More Generalization: Unlocking More Controllability by In-Context Generation Shaojin Wu Mengqi Huang Wenxu Wu Yufeng Cheng Fei Ding Qian He DiffM 58 4 0 02 Apr 2025
COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking Chunhui Zhang Li Liu Jialin Gao Xin Sun Hao Wen Xi Zhou Shiming Ge Yucheng Wang 42 1 0 02 Apr 2025
Model Hemorrhage and the Robustness Limits of Large Language Models Ziyang Ma Zehan Li Lefei Zhang Gui-Song Xia Bo Du Liangpei Zhang Dacheng Tao 59 0 0 31 Mar 2025
Z-SASLM: Zero-Shot Style-Aligned SLI Blending Latent Manipulation Alessio Borgi Luca Maiano Irene Amerini 37 0 0 29 Mar 2025
MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs Xianglong He Junyi Chen Di Huang Zexiang Liu Xiaoshui Huang Wanli Ouyang C. Yuan Yangguang Li DiffM 57 0 0 29 Mar 2025
Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap Tong Nie Jian Sun Wei Ma 72 1 0 27 Mar 2025
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness Dian Zheng Ziqi Huang Hongbo Liu Kai Zou Yinan He ... Yuyao Zhang Jingwen He Wei-Shi Zheng Yu Qiao Ziwei Liu EGVM VGen 56 6 0 27 Mar 2025
Unified Multimodal Discrete Diffusion Alexander Swerdlow Mihir Prabhudesai Siddharth Gandhi Deepak Pathak Katerina Fragkiadaki DiffM 77 0 0 26 Mar 2025
Halton Scheduler For Masked Generative Image Transformer Victor Besnier Mickael Chen David Hurych Eduardo Valle Matthieu Cord 52 1 0 21 Mar 2025
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis Jonas Belouadi Eddy Ilg M. Keuper Hideki Tanaka Masao Utiyama Raj Dabre Steffen Eger Simone Paolo Ponzetto 52 0 0 14 Mar 2025
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation Chen Chen Rui Qian Wenze Hu Tsu-jui Fu Jialing Tong ... Lezhi Li Bowen Zhang A. Schwing Wei Liu Yuqing Yang 64 0 0 13 Mar 2025
LatexBlend: Scaling Multi-concept Customized Generation with Latent Textual Blending Jian Jin Zhenbo Yu Yang Shen Zhenyong Fu Jian Yang DiffM 63 0 0 10 Mar 2025
Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation Amir Mohammad Izadi Seyed Mohsen Hosseini Soroush Vafaie Tabar Ali Abdollahi Armin Saghafian M. Baghshah EGVM 45 0 0 09 Mar 2025
Anti-Diffusion: Preventing Abuse of Modifications of Diffusion-Based Models Zheng Li Liangbin Xie Jiantao Zhou Xintao Wang Haiwei Wu Jinyu Tian 39 0 0 07 Mar 2025
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion Ziyi Yang Fanqi Wan Longguang Zhong Canbin Huang Guosheng Liang Xiaojun Quan MoMe 95 0 0 06 Mar 2025
Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text Guotao Liang Baoquan Zhang Zhiyuan Wen Junteng Zhao Yunming Ye Kola Ye Yao He 57 0 0 03 Mar 2025
MINT: Multi-modal Chain of Thought in Unified Generative Models for Enhanced Image Generation Yi Wang Mushui Liu Wanggui He Longxiang Zhang Z. Huang ... Yiming Li Weilong Dai Mingli Song Jie Song Hao Jiang MLLM MoE LRM 83 1 0 03 Mar 2025
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations Ziyang Zhang Yang Yu Yucheng Chen Xulei Yang S. Yeo MedIm 56 1 0 02 Mar 2025
Speculative Decoding and Beyond: An In-Depth Survey of Techniques Y. Hu Zining Liu Zhenyuan Dong Tianfan Peng Bradley McDanel S. Zhang 93 0 0 27 Feb 2025
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam Tianjin Huang Haotian Hu Zhenyu (Allen) Zhang Gaojie Jin Xianrui Li ... Tianlong Chen Lu Liu Qingsong Wen Zhangyang Wang Shiwei Liu MQ 39 0 0 24 Feb 2025
Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene Tai-Yu Pan Sooyoung Jeon Mengdi Fan Jinsu Yoo Zhenyang Feng Mark E. Campbell Kilian Q. Weinberger Bharath Hariharan Wei-Lun Chao 106 0 0 10 Feb 2025
The Curse of Depth in Large Language Models Wenfang Sun Xinyuan Song Pengxiang Li Lu Yin Yefeng Zheng Shiwei Liu 75 4 0 09 Feb 2025
Decoder-Only LLMs are Better Controllers for Diffusion Models Ziyi Dong Yao Xiao Pengxu Wei Liang Lin DiffM 86 0 0 06 Feb 2025
Turn That Frown Upside Down: FaceID Customization via Cross-Training Data Shuhe Wang Xiaoya Li Xiaofei Sun G. Wang Tianwei Zhang Jiwei Li Eduard H. Hovy 38 0 0 28 Jan 2025
Parameter-Efficient Fine-Tuning for Foundation Models Dan Zhang Tao Feng Lilong Xue Yuandong Wang Yuxiao Dong J. Tang 46 8 0 23 Jan 2025
SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training Tianjin Huang Ziquan Zhu Gaojie Jin Lu Liu Zhangyang Wang Shiwei Liu 44 1 0 12 Jan 2025
Circuit Complexity Bounds for Visual Autoregressive Model Yekun Ke Xiaoyu Li Yingyu Liang Zhenmei Shi Zhao Song 45 5 0 08 Jan 2025
Foundations of GenIR Qingyao Ai Jingtao Zhan Yong-Jin Liu 51 0 0 06 Jan 2025
Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN Pengxiang Li Lu Yin Shiwei Liu 70 4 0 18 Dec 2024
Self-control: A Better Conditional Mechanism for Masked Autoregressive Model Qiaoying Qu Shiyu Shen DiffM 81 0 0 18 Dec 2024
Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation Yiping Wang Xuehai He Kuan-Chieh Jackson Wang Luyao Ma Jianwei Yang Shuohang Wang Simon S. Du Yelong Shen VGen 93 2 0 17 Dec 2024
SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer Hongyu Chen Zihan Wang Xianrui Li Xingchen Sun Fangyi Chen Jiang Liu Jiadong Wang Bhiksha Raj Zicheng Liu Emad Barsoum VLM 114 7 0 14 Dec 2024
Sound2Vision: Generating Diverse Visuals from Audio through Cross-Modal Latent Alignment Kim Sung-Bin Arda Senocak Hyunwoo Ha Tae-Hyun Oh DiffM 80 0 0 09 Dec 2024
DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models Yizhuo Li Yuying Ge Yixiao Ge Ping Luo Ying Shan DiffM VGen 98 0 0 05 Dec 2024
AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models Xinghui Li Qichao Sun Pengze Zhang Fulong Ye Zhichao Liao Wanquan Feng Mingcong Liu Qian He DiffM 75 2 0 05 Dec 2024
XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation Xianrui Li Kai Qiu Hongyu Chen Jason Kuen Jiuxiang Gu Jiadong Wang Zhe-nan Lin Bhiksha Raj VLM 125 3 0 02 Dec 2024
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis Anton Voronov Denis Kuznedelev Mikhail Khoroshikh Valentin Khrulkov Dmitry Baranchuk 111 2 0 02 Dec 2024
Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects Weimin Qiu Jieke Wang Meng Tang DiffM 82 0 0 28 Nov 2024
Training Data Synthesis with Difficulty Controlled Diffusion Model Zerun Wang Jiafeng Mao Xueting Wang Toshihiko Yamasaki DiffM 80 0 0 27 Nov 2024
Reward Incremental Learning in Text-to-Image Generation Maorong Wang Jiafeng Mao Xueting Wang Toshihiko Yamasaki EGVM 103 0 0 26 Nov 2024
Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis Boming Miao C. Li Xiaobei Wang Andi Zhang Rui Sun Zizhe Wang Yao Zhu DiffM 78 0 0 25 Nov 2024