LaVin-DiT: Large Vision Diffusion Transformer

18 November 2024

Papers citing "LaVin-DiT: Large Vision Diffusion Transformer"

4 / 4 papers shown

Title
Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation Jiajie Su Qiyong Zhong Yunshan Ma Weiming Liu Chaochao Chen Xiaolin Zheng Jianwei Yin Tat-Seng Chua 40 0 0 13 Apr 2025
Lumina-OmniLV: A Unified Multimodal Framework for General Low-Level Vision Yuandong Pu Le Zhuo Kaiwen Zhu Liangbin Xie Wenlong Zhang Xiangyu Chen Peng Gao Yu Qiao Chao Dong Yihao Liu MLLM 69 1 0 07 Apr 2025
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion Zhou Zhenglin Ma Fan Fan Hehe Chua Tat-Seng VGen 60 0 0 20 Mar 2025
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models Yijing Lin Mengqi Huang Shuhan Zhuang Zhendong Mao VGen 51 0 0 13 Mar 2025