One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

12 March 2023

Hang Su

Jun Zhu

DiffM

ArXiv PDF HTML

Papers citing "One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale"

25 / 25 papers shown

Title
Step1X-Edit: A Practical Framework for General Image Editing S. Liu Yucheng Han Peng Xing Fukun Yin Rui Wang ... Yibo Zhu Binxing Jiao X. Zhang Gang Yu Daxin Jiang DiffM 100 3 0 24 Apr 2025
COP-GEN-Beta: Unified Generative Modelling of COPernicus Imagery Thumbnails Miguel Espinosa V. Marsocci Yuru Jia Elliot J. Crowley Mikolaj Czerkawski DiffM 47 0 0 11 Apr 2025
Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets Chuning Zhu Raymond Yu S. Feng Benjamin Burchfiel Paarth Shah Abhishek Gupta VGen 55 0 0 03 Apr 2025
Generative Modeling of Class Probability for Multi-Modal Representation Learning Jungkyoo Shin Bumsoo Kim Eunwoo Kim 50 1 0 21 Mar 2025
GAUDA: Generative Adaptive Uncertainty-guided Diffusion-based Augmentation for Surgical Segmentation Yannik Frisch Christina Bornberg Moritz Fuchs Anirban Mukhopadhyay MedIm 28 0 0 18 Jan 2025
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows Shufan Li Konstantinos Kallidromitis Akash Gokul Zichun Liao Yusuke Kato Kazuki Kozuka Aditya Grover VGen 92 5 0 02 Dec 2024
LaVin-DiT: Large Vision Diffusion Transformer Zhaoqing Wang Xiaobo Xia Runnan Chen Dongdong Yu Changhu Wang M. Gong Tongliang Liu 92 6 0 18 Nov 2024
From Incomplete Coarse-Grained to Complete Fine-Grained: A Two-Stage Framework for Spatiotemporal Data Reconstruction Ziyu Sun Haoyang Su E. Wang Funing Yang Yongjian Yang Wenbin Liu AI4TS DiffM 31 0 0 05 Oct 2024
Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting Wei Li Jingyang Zhang Pheng-Ann Heng Lixu Gu CLL DiffM 41 2 0 28 Jun 2024
Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data Jingyang Ou Shen Nie Kaiwen Xue Fengqi Zhu Jiacheng Sun Zhenguo Li Chongxuan Li DiffM 41 28 0 06 Jun 2024
LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation Haoyu Zheng Wenqiao Zhang Yaoke Wang Hao Zhou Jiang Liu Juncheng Li Zheqi Lv Siliang Tang Yueting Zhuang Yueting Zhuang 32 1 0 21 Apr 2024
Generative Enhancement for 3D Medical Images Lingting Zhu Noel Codella Dongdong Chen Zhenchao Jin Lu Yuan Lequan Yu DiffM MedIm 42 10 0 19 Mar 2024
Context-aware Talking Face Video Generation Meidai Xuanyuan Yuwang Wang Honglei Guo Qionghai Dai DiffM 27 0 0 28 Feb 2024
Diffusion for Natural Image Matting Yihan Hu Yiheng Lin Wei Wang Yao-Min Zhao Yunchao Wei Humphrey Shi 28 7 0 10 Dec 2023
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion Xian Liu Jian Ren Aliaksandr Siarohin Ivan Skorokhodov Yanyu Li Dahua Lin Xihui Liu Ziwei Liu Sergey Tulyakov 32 57 0 12 Oct 2023
DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving Xiaofeng Wang Zheng Hua Zhu Guan Huang Xinze Chen Jiagang Zhu Jiwen Lu VGen 22 148 0 18 Sep 2023
DiffuseGAE: Controllable and High-fidelity Image Manipulation from Disentangled Representation Yi Leng Qiangjuan Huang Zhiyuan Wang Yangyang Liu Haoyu Zhang DiffM 35 5 0 12 Jul 2023
Masked Diffusion Models Are Fast Distribution Learners Jiachen Lei Qinglong Wang Pengyu Cheng Zhongjie Ba Zhan Qin Zhibo Wang Zhenguang Liu Kui Ren DiffM 21 2 0 20 Jun 2023
ViT-TTS: Visual Text-to-Speech with Scalable Diffusion Transformer Huadai Liu Rongjie Huang Xuan Lin Wenqiang Xu Maozong Zheng Hong Chen Jinzheng He Zhou Zhao DiffM 26 20 0 22 May 2023
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models Shan Zhong Zhongzhan Huang Wushao Wen Jinghui Qin Liang Lin 24 40 0 09 May 2023
Equivariant Energy-Guided SDE for Inverse Molecular Design Fan Bao Min Zhao Zhongkai Hao Pei‐Yun Li Chongxuan Li Jun Zhu DiffM 182 63 0 30 Sep 2022
Diffusion Models: A Comprehensive Survey of Methods and Applications Ling Yang Zhilong Zhang Yingxia Shao Shenda Hong Runsheng Xu Yue Zhao Wentao Zhang Bin Cui Ming-Hsuan Yang DiffM MedIm 224 1,300 0 02 Sep 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 390 4,125 0 28 Jan 2022
Diffusion Probabilistic Models for 3D Point Cloud Generation Shitong Luo Wei Hu 3DPC 180 721 0 02 Mar 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,774 0 24 Feb 2021