Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

1 July 2024

Boyuan Chen

Papers citing "Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion"

35 / 35 papers shown

Title
Generative Pre-trained Autoregressive Diffusion Transformer Yuan Zhang Jiacheng Jiang Guoqing Ma Zhiying Lu Haoyang Huang Jianlong Yuan Nan Duan VGen 40 1 0 12 May 2025
JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers Kwon Byung-Ki Qi Dai Lee Hyoseok Chong Luo Tae-Hyun Oh 71 0 0 01 May 2025
A Survey of Interactive Generative Video Jiwen Yu Yiran Qin Haoxuan Che Quande Liu Xihuai Wang Pengfei Wan Di Zhang Kun Gai Hao Chen Xihui Liu VGen 65 0 0 30 Apr 2025
ADiff4TPP: Asynchronous Diffusion Models for Temporal Point Processes Amartya Mukherjee Ruizhi Deng He Zhao Yuzhen Mao Leonid Sigal Frederick Tung DiffM AI4TS 53 0 0 29 Apr 2025
SkyReels-V2: Infinite-length Film Generative Model Guibin Chen D. Lin Jiangping Yang Chunze Lin J. Zhu ... Di Qiu Debang Li Zhengcong Fei Yang Li Yahui Zhou DiffM VGen 56 1 0 17 Apr 2025
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation Lvmin Zhang Maneesh Agrawala DiffM VGen 75 0 0 17 Apr 2025
Decoupled Diffusion Sparks Adaptive Scene Generation Yunsong Zhou Naisheng Ye William Ljungbergh Tianyu Li Jiazhi Yang Zetong Yang Hongzi Zhu Christoffer Petersson Hongyang Li 44 1 0 14 Apr 2025
Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets Chuning Zhu Raymond Yu S. Feng Benjamin Burchfiel Paarth Shah Abhishek Gupta VGen 57 0 0 03 Apr 2025
Long-Context Autoregressive Video Modeling with Next-Frame Prediction Yuchao Gu Weijia Mao Mike Zheng Shou VGen 84 2 0 25 Mar 2025
AdaWorld: Learning Adaptable World Models with Latent Actions Shenyuan Gao Siyuan Zhou Yilun Du Jun Zhang Chuang Gan VGen 62 3 0 24 Mar 2025
ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos Haolin Yang Feilong Tang Ming Hu Yulong Li Junjie Guo Yexin Liu Zelin Peng Junjun He Zongyuan Ge VGen DiffM 98 1 0 20 Mar 2025
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model Jiaming Liu Hao Chen Pengju An Zhuoyang Liu Renrui Zhang ... Chengkai Hou Mengdi Zhao KC alex Zhou Pheng-Ann Heng S. Zhang 72 8 0 13 Mar 2025
Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion Evgeniia Vu Andrei Boiarov Dmitry Vetrov VGen 50 0 0 13 Mar 2025
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models Marianne Arriola Aaron Gokaslan Justin T Chiu Zhihan Yang Zhixuan Qi Jiaqi Han S. Sahoo Volodymyr Kuleshov DiffM 72 5 0 12 Mar 2025
Generative Video Bi-flow Chen Liu Tobias Ritschel DiffM VGen 50 0 0 09 Mar 2025
Generative Trajectory Stitching through Diffusion Composition Yunhao Luo Utkarsh Aashu Mishra Yilun Du Danfei Xu 135 1 0 07 Mar 2025
Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models Zhanpeng He Yifeng Cao M. Ciocarlie 59 0 0 26 Feb 2025
MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation Sihyun Yu Meera Hahn Dan Kondratyuk Jinwoo Shin Agrim Gupta José Lezama Irfan Essa David A. Ross Jonathan Huang DiffM VGen 77 0 0 18 Feb 2025
IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation Krishan Rana Robert Lee David Pershouse Niko Suenderhauf VGen 53 0 0 17 Feb 2025
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model Guoqing Ma Haoyang Huang K. Yan L. Chen Nan Duan ... Yuhui Wang Yuanwei Lu Yu-Cheng Chen Yu-Juan Luo Y. Luo DiffM VGen 173 17 0 14 Feb 2025
History-Guided Video Diffusion Kiwhan Song Boyuan Chen Max Simchowitz Yilun Du Russ Tedrake Vincent Sitzmann VGen 117 7 0 10 Feb 2025
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile Hangliang Ding Dacheng Li Runlong Su Peiyuan Zhang Zhijie Deng Ion Stoica Hao Zhang VGen 70 4 0 10 Feb 2025
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control Junjie Wen Yichen Zhu Jinming Li Zhibin Tang Chaomin Shen Feifei Feng VLM 58 12 0 09 Feb 2025
A Simple Approach to Unifying Diffusion-based Conditional Generation Xirui Li Charles Herrmann Kelvin C.K. Chan Yinxiao Li Deqing Sun Chao Ma Ming Yang DiffM VLM 43 1 0 15 Oct 2024
Pyramidal Flow Matching for Efficient Video Generative Modeling Yang Jin Zhicheng Sun Ningyuan Li Kun Xu K. Xu ... Nan Zhuang Quzhe Huang Yang Song Yadong Mu Zhouchen Lin VGen 66 65 0 08 Oct 2024
Autoregressive Action Sequence Learning for Robotic Manipulation Xinyu Zhang Yuhan Liu Haonan Chang Liam Schramm Abdeslam Boularias 35 9 0 04 Oct 2024
Discrete Copula Diffusion Anji Liu Oliver Broadrick Mathias Niepert Guy Van den Broeck DiffM 59 4 0 02 Oct 2024
Joint Localization and Planning using Diffusion Lukas Lao Beyer S. Karaman 35 0 0 26 Sep 2024
Diffusion Models Are Real-Time Game Engines Dani Valevski Yaniv Leviathan Moab Arar Shlomi Fruchter DiffM VGen AI4CE 33 59 0 27 Aug 2024
Tutorial on Diffusion Models for Imaging and Vision Stanley H. Chan 132 24 0 26 Mar 2024
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 158 1,016 0 25 Nov 2023
MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer Shanghua Gao Pan Zhou Mingg-Ming Cheng Shuicheng Yan DiffM 142 155 0 25 Mar 2023
Diffusion-LM Improves Controllable Text Generation Xiang Lisa Li John Thickstun Ishaan Gulrajani Percy Liang Tatsunori B. Hashimoto AI4CE 173 776 0 27 May 2022
Planning with Diffusion for Flexible Behavior Synthesis Michael Janner Yilun Du J. Tenenbaum Sergey Levine DiffM 202 629 0 20 May 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 305 7,443 0 11 Nov 2021