Title
Rotary Masked Autoencoders are Versatile Learners Uros Zivanovic Serafina Di Gioia Andre Scaffidi Martín de los Rios Gabriella Contardo R. Trotta 30 0 0 26 May 2025
VFRTok: Variable Frame Rates Video Tokenizer with Duration-Proportional Information Assumption Tianxiong Zhong Xingye Tian Boyuan Jiang Xuebo Wang Xin Tao Pengfei Wan Zhiwei Zhang 74 0 0 17 May 2025
No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves Dengyang Jiang Mengmeng Wang Liuzhuozheng Li Lei Zhang Haoyu Wang Wei Wei Guang Dai Yanning Zhang Jingdong Wang DiffM 107 0 0 05 May 2025
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models Yushu Wu Yanyu Li Ivan Skorokhodov Anil Kag Willi Menapace Sharath Girish Aliaksandr Siarohin Yanzhi Wang Sergey Tulyakov DiffM VGen 96 0 0 14 Apr 2025
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong Jun Hao Liew Zilong Huang Jiashi Feng Xihui Liu 87 1 0 11 Apr 2025
"Principal Components" Enable A New Language of Images Xin Wen Bingchen Zhao Ismail Elezi Jiankang Deng Xiaojuan Qi 114 1 0 11 Mar 2025
Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis Kai Qiu Xianrui Li Jason Kuen Hong Chen Xiaohao Xu Jiuxiang Gu Yinyi Luo Bhiksha Raj Zhe Lin Marios Savvides 156 2 0 11 Mar 2025