Title
Frame-Level Captions for Long Video Generation with Complex Multi Scenes Guangcong Zheng Jianlong Yuan Bo Wang Haoyang Huang Guoqing Ma Nan Duan DiffM VGen 76 0 0 27 May 2025
DVD-Quant: Data-free Video Diffusion Transformers Quantization Zhiteng Li Hanxuan Li Junyi Wu Kai Liu Linghe Kong Guihai Chen Yulun Zhang Xiaokang Yang MQ VGen 69 0 0 24 May 2025
Flow-GRPO: Training Flow Matching Models via Online RL Jie Liu Gongye Liu Jiajun Liang Yongqian Li Jiaheng Liu Xinyu Wang Pengfei Wan Di Zhang Wanli Ouyang AI4CE 200 5 0 08 May 2025
SkyReels-A2: Compose Anything in Video Diffusion Transformers Zhengcong Fei Didong Li Di Qiu Jiadong Wang Yikun Dou ... Jinfeng Xu Mingyuan Fan Guibin Chen Yang Li Yahui Zhou DiffM VGen 131 10 0 03 Apr 2025
AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion Mingzhen Sun Weining Wang Gen Li Jiawei Liu Jiahui Sun Wanquan Feng Shanshan Lao Siyu Zhou Qian He Qingbin Liu DiffM VGen 147 6 0 10 Mar 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 381 699 0 20 Feb 2025
SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers Di Qiu Zhengcong Fei Rui Wang Jialin Bai Changqian Yu Mingyuan Fan Guibin Chen Xiang Wen DiffM VGen 136 11 0 15 Feb 2025
Improving Video Generation with Human Feedback Jie Liu Gongye Liu Jiajun Liang Ziyang Yuan Xiaokun Liu ... Pengfei Wan Di Zhang Kun Gai Yujiu Yang Wanli Ouyang VGen EGVM 153 26 0 23 Jan 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 380 2,013 0 22 Jan 2025
Open-Sora: Democratizing Efficient Video Production for All Zangwei Zheng Xiangyu Peng Tianji Yang Chenhui Shen Shenggui Li Hongxin Liu Yukun Zhou Tianyi Li Yang You VGen 166 256 0 31 Dec 2024
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model Feng Liu Shiwei Zhang Xiaofeng Wang Yujie Wei Haonan Qiu Yuzhong Zhao Yingya Zhang Qixiang Ye Fang Wan VGen AI4TS 204 30 0 28 Nov 2024
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model Zongjian Li Bin Lin Yang Ye Liuhan Chen Xinhua Cheng Shenghai Yuan Li-xin Yuan VGen DiffM 166 20 0 26 Nov 2024
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang ... Weihan Wang Yean Cheng Xiaotao Gu Yuxiao Dong Jie Tang DiffM VGen 245 565 0 12 Aug 2024
Improved Distribution Matching Distillation for Fast Image Synthesis Tianwei Yin Michael Gharbi Taesung Park Richard Zhang Eli Shechtman Frédo Durand William T. Freeman DiffM 131 127 0 23 May 2024
From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos Yin Chen Jia Li Shiguang Shan Meng Wang Richang Hong 87 35 0 09 Dec 2023
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model Kai Yang Jian Tao Jiafei Lyu Chunjiang Ge Jiaxin Chen Qimai Li Weihan Shen Xiaolong Zhu Xiu Li EGVM 106 109 0 22 Nov 2023
Diffusion Model Alignment Using Direct Preference Optimization Bram Wallace Meihua Dang Rafael Rafailov Linqi Zhou Aaron Lou Senthil Purushwalkam Stefano Ermon Caiming Xiong Shafiq Joty Nikhil Naik EGVM 142 287 0 21 Nov 2023
ARNIQA: Learning Distortion Manifold for Image Quality Assessment Lorenzo Agnolucci L. Galteri Marco Bertini A. Bimbo 89 42 0 20 Oct 2023
Scalable Diffusion Models with Transformers William S. Peebles Saining Xie GNN 124 2,436 0 19 Dec 2022
Make-A-Video: Text-to-Video Generation without Text-Video Data Uriel Singer Adam Polyak Thomas Hayes Xiaoyue Yin Jie An ... Oron Ashual Oran Gafni Devi Parikh Sonal Gupta Yaniv Taigman DiffM VGen 85 1,434 0 29 Sep 2022
FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling Haoning Wu Chaofeng Chen Jingwen Hou Liang Liao Annan Wang Wenxiu Sun Qiong Yan Weisi Lin 124 179 0 06 Jul 2022
Video Diffusion Models Jonathan Ho Tim Salimans Alexey A. Gritsenko William Chan Mohammad Norouzi David J. Fleet DiffM VGen 230 1,642 0 07 Apr 2022
A Self-Supervised Descriptor for Image Copy Detection Ed Pizzi Sreya . Dutta Roy Sugosh Nagavara Ravindra Priya Goyal Matthijs Douze SSL 96 126 0 21 Feb 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 520 15,788 0 20 Dec 2021
MUSIQ: Multi-scale Image Quality Transformer Junjie Ke Qifei Wang Yilin Wang P. Milanfar Feng Yang 228 685 0 12 Aug 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.0K 29,926 0 26 Feb 2021
TransNet V2: An effective deep network architecture for fast shot transition detection Tomás Soucek Jakub Lokoč 75 124 0 11 Aug 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 782 18,408 0 19 Jun 2020
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 515 20,376 0 23 Oct 2019
Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning Xue Bin Peng Aviral Kumar Grace Zhang Sergey Levine OffRL 157 570 0 01 Oct 2019
Character Region Awareness for Text Detection Youngmin Baek Bado Lee Dongyoon Han Sangdoo Yun Hwalsuk Lee 73 785 0 03 Apr 2019
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 1.9K 77,520 0 18 May 2015