Title
"I Know It When I See It": Mood Spaces for Connecting and Expressing Visual Concepts Huzheng Yang Katherine Xu Michael D. Grossberg Yutong Bai Jianbo Shi 78 0 0 21 Apr 2025
SUDO: Enhancing Text-to-Image Diffusion Models with Self-Supervised Direct Preference Optimization Liang Peng Boxi Wu Haoran Cheng Yibo Zhao Xiaofei He 61 0 0 20 Apr 2025
Personalized Text-to-Image Generation with Auto-Regressive Models Kaiyue Sun Xian Liu Yao Teng Xihui Liu 81 1 0 17 Apr 2025
SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL Junke Wang Zhi Tian Xinyu Wang Xinyu Zhang Weilin Huang Zuxuan Wu Yu Jiang VGen 165 17 0 15 Apr 2025
Autoregressive Distillation of Diffusion Transformers Yeongmin Kim Sotiris Anagnostidis Yuming Du Edgar Schönfeld Jonas Kohler Markos Georgopoulos Albert Pumarola Ali K. Thabet A. Sanakoyeu 76 0 0 15 Apr 2025
InstructEngine: Instruction-driven Text-to-Image Alignment Xingyu Lu Yihan Hu Yuanxing Zhang Kaiyu Jiang Changyi Liu ... Bin Wen C. Yuan Fan Yang Yan Li Di Zhang 127 0 0 14 Apr 2025
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning Zhong-Yu Li Ruoyi Du Juncheng Yan Le Zhuo Zhen Li Peng Gao Zhanyu Ma Ming-Ming Cheng VLM 134 7 0 10 Apr 2025
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography Mengchen Zhang Tong Wu Jing Tan Ziwei Liu Gordon Wetzstein Dahua Lin VGen 111 0 0 09 Apr 2025
Transfer between Modalities with MetaQueries Xichen Pan Satya Narayan Shukla Aashu Singh Zhuokai Zhao Shlok Kumar Mishra ... Jiuhai Chen Kunpeng Li F. Xu Ji Hou Saining Xie DiffM 102 21 0 08 Apr 2025
CDM-QTA: Quantized Training Acceleration for Efficient LoRA Fine-Tuning of Diffusion Model Jinming Lu Minghao She Wendong Mao Zhongfeng Wang MQ 50 0 0 08 Apr 2025
Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation Jiwoo Chung Sangeek Hyun Hyunjun Kim Eunseo Koh MinKyu Lee Jae-Pil Heo 74 0 0 03 Apr 2025
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning Xianwei Zhuang Yuxin Xie Yufan Deng Dongchao Yang Liming Liang Jinghan Ru Yuguo Yin Yuexian Zou 160 5 0 03 Apr 2025
Less-to-More Generalization: Unlocking More Controllability by In-Context Generation Shaojin Wu Mengqi Huang Wenxu Wu Yufeng Cheng Fei Ding Qian He DiffM 128 12 0 02 Apr 2025
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement Runhui Huang Chunwei Wang Junwei Yang Guansong Lu Yunlong Yuan ... Lu Hou Wei Zhang Lanqing Hong Hengshuang Zhao Hang Xu MLLM 168 7 0 02 Apr 2025
Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models Guy Kaplan Michael Toker Yuval Reif Yonatan Belinkov Roy Schwartz DiffM 105 0 0 01 Apr 2025
Training-Free Text-Guided Image Editing with Visual Autoregressive Model Yufei Wang Lanqing Guo Zhihao Li Jiaxing Huang Pichao Wang Bihan Wen Jingchao Wang DiffM 111 1 0 31 Mar 2025
Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image Synthesis Woojung Han Yeonkyung Lee Chanyoung Kim Kwanghyun Park Seong Jae Hwang DiffM 94 0 0 28 Mar 2025
Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance Jaywon Koo J. Hernandez Moayed Haji-Ali Ziyan Yang Vicente Ordonez EGVM 119 0 0 27 Mar 2025
Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models Alex Jinpeng Wang Linjie Li Zhiyong Yang Lijuan Wang Min Li DiffM 103 0 0 26 Mar 2025
Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation Qi Si Bo Wang Zhao Zhang 107 0 0 26 Mar 2025
ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning Jiaqi Liao Zhiyong Yang Linjie Li Dianqi Li Kevin Qinghong Lin Yu Cheng Lijuan Wang MLLM LRM 87 6 0 25 Mar 2025
InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment Yaojie Lu Qichao Wang H. Cao Xierui Wang Xiaoyin Xu Min Zhang 120 1 0 24 Mar 2025
TDRI: Two-Phase Dialogue Refinement and Co-Adaptation for Interactive Image Generation Yuheng Feng Jianhui Wang Kun Li Sida Li Tianyu Shi Haoyue Han Miao Zhang Xueqian Wang DiffM 486 0 0 22 Mar 2025
ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation Oucheng Huang Yuhang Ma Zeng Zhao Mingrui Wu Jiayi Ji Rongsheng Zhang Zhibo Hu Xiaoshuai Sun Rongrong Ji 78 1 0 22 Mar 2025
HyperLoRA: Parameter-Efficient Adaptive Generation for Portrait Synthesis Mengtian Li Jinshu Chen Wanquan Feng Bingchuan Li Fei Dai Mingcong Liu Qian He 3DH 88 0 0 21 Mar 2025
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens Panpan Wang Liqiang Niu Fandong Meng Jinan Xu Yufeng Chen Jie Zhou DiffM 108 0 0 21 Mar 2025
Halton Scheduler For Masked Generative Image Transformer Victor Besnier Mickael Chen David Hurych Eduardo Valle Matthieu Cord 101 3 0 21 Mar 2025
Zero-Shot Styled Text Image Generation, but Make It Autoregressive Vittorio Pippi Fabio Quattrini S. Cascianelli Alessio Tonioni Rita Cucchiara 81 1 0 21 Mar 2025
Scale-wise Distillation of Diffusion Models Nikita Starodubcev Denis Kuznedelev Artem Babenko Dmitry Baranchuk DiffM 95 0 0 20 Mar 2025
ShapeShift: Towards Text-to-Shape Arrangement Synthesis with Content-Aware Geometric Constraints Vihaan Misra Peter Schaldenbrand Jean Oh DiffM 97 1 0 18 Mar 2025
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation Hongyu Zhang Yufan Deng Shenghai Yuan Peng Jin Zesen Cheng Yian Zhao Chang-Shu Liu Jie Chen DiffM VGen 123 0 0 18 Mar 2025
Next-Scale Autoregressive Models are Zero-Shot Single-Image Object View Synthesizers Shiran Yuan Hao Zhao DiffM 117 0 0 17 Mar 2025
Unified Autoregressive Visual Generation and Understanding with Continuous Tokens Lijie Fan Luming Tang Siyang Qin Tianhong Li Xuan S. Yang ... Tao Zhu Michael Rubinstein Michalis Raptis Deqing Sun Radu Soricut 125 8 0 17 Mar 2025
DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models Dewei Zhou Mingwei Li Zongxin Yang Yi Yang 184 3 0 17 Mar 2025
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model Tao Wang Changxu Cheng Lingfeng Wang Senda Chen Wuyue Zhao VLM 100 1 0 17 Mar 2025
The Amazon Nova Family of Models: Technical Report and Model Card Amazon AGI Aaron Langford A. Shah Abhanshu Gupta Abhimanyu Bhatter ... Benjamin Biggs Benjamin Ott Bhanu Vinzamuri Bharath Venkatesh Bhavana Ganesh 26 21 0 17 Mar 2025
FedGAI: Federated Style Learning with Cloud-Edge Collaboration for Generative AI in Fashion Design Mingzhu Wu Jianan Jiang Xinglin Li Hanhui Deng Di Wu FedML 138 0 0 16 Mar 2025
LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching Feihong Yan Qingyan Wei Jiayi Tang Jiajun Li Yidan Wang Xuming Hu Huiqi Li Linfeng Zhang 95 2 0 16 Mar 2025
BalancedDPO: Adaptive Multi-Metric Alignment Dipesh Tamboli Souradip Chakraborty Aditya Malusare B. Banerjee Amrit Singh Bedi Vaneet Aggarwal EGVM 105 1 0 16 Mar 2025
Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection Shufan Li Konstantinos Kallidromitis Akash Gokul Arsh Koneru Yusuke Kato Kazuki Kozuka Aditya Grover VLM 138 5 0 15 Mar 2025
Safe-VAR: Safe Visual Autoregressive Model for Text-to-Image Generative Watermarking Ziyi Wang Songbai Tan Gang Xu Xuerui Qiu Hongbin Xu Xin Meng Ming Li Fei Richard Yu WIGM 126 0 0 14 Mar 2025
TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction Xuying Zhang Yutong Liu Yangguang Li Renrui Zhang Yong Liu ... Wanli Ouyang Zhiwei Xiong Peng Gao Qibin Hou Ming-Ming Cheng 239 3 0 13 Mar 2025
FlowTok: Flowing Seamlessly Across Text and Image Tokens Ju He Qihang Yu Qihao Liu Liang-Chieh Chen 150 1 0 13 Mar 2025
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models Jialv Zou Bencheng Liao Qian Zhang Wenyu Liu Xinggang Wang Mamba MLLM 149 1 0 11 Mar 2025
LatexBlend: Scaling Multi-concept Customized Generation with Latent Textual Blending Jian Jin Zhenbo Yu Yang Shen Zhenyong Fu Jian Yang DiffM 110 1 0 10 Mar 2025
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment Xing Xie Jiawei Liu Ziyue Lin Huijie Fan Zhi Han Yandong Tang Liangqiong Qu 113 0 0 10 Mar 2025
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model Lixue Gong Xiaoxia Hou Fanshi Li Liang Li Xiaochen Lian ... Qi Zhang Yuwei Zhang Shijia Zhao Jianchao Yang Weilin Huang DiffM VLM 116 14 0 10 Mar 2025
Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation Amir Mohammad Izadi Seyed Mohammad Hadi Hosseini Soroush Vafaie Tabar Ali Abdollahi Armin Saghafian M. Baghshah EGVM 86 1 0 09 Mar 2025
X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation Jian Ma Qirong Peng Xu Guo Chen Chen H. Lu Zhenyu Yang VLM 156 1 0 08 Mar 2025
ROCM: RLHF on consistency models Shivanshu Shekhar Tong Zhang 78 0 0 08 Mar 2025