Title
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis Mengchao Wang Qiang Wang Fan Jiang Yaqi Fan Yunpeng Zhang Yonggang Qi Kun Zhao Mu Xu DiffM VGen 46 2 0 07 Apr 2025
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models Gaojie Lin Jianwen Jiang Jiaqi Yang Zerong Zheng Chao Liang DiffM VGen 244 19 0 03 Feb 2025
Improving Video Generation with Human Feedback Jie Liu Gongye Liu Jiajun Liang Ziyang Yuan Xiaokun Liu ... Pengfei Wan Di Zhang Kun Gai Yujiu Yang Wanli Ouyang VGen EGVM 79 19 0 23 Jan 2025
VMamba: Visual State Space Model Yue Liu Yunjie Tian Yuzhong Zhao Hongtian Yu Lingxi Xie Yaowei Wang Qixiang Ye Jianbin Jiao Yunfan Liu Mamba 201 666 0 31 Dec 2024
OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization Jiacheng Zhang Jie Wu Weifeng Chen Yatai Ji Xuefeng Xiao Weilin Huang Kai Han VGen 65 10 0 19 Dec 2024
VideoDPO: Omni-Preference Alignment for Video Diffusion Generation Runtao Liu Haoyu Wu Zheng Ziqiang Chen Wei Yingqing He Renjie Pi Qifeng Chen VGen 106 17 0 18 Dec 2024
Sonic: Shifting Focus to Global Audio Perception in Portrait Animation Xiaozhong Ji Xiaobin Hu Zhihong Xu Junwei Zhu Chuming Lin ... Donghao Luo Yi Chen Qin Lin Qinglin Lu Chengjie Wang VGen 120 8 0 25 Nov 2024
EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation Rang Meng Xingyu Zhang Yuming Li Chenguang Ma 93 8 0 15 Nov 2024
CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention Gaojie Lin Jianwen Jiang Chao Liang Tianyun Zhong Jiaqi Yang Yanbo Zheng VGen DiffM 79 16 0 03 Sep 2024
EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation Cong Wang Jiaxi Gu Panwen Hu Haoyu Zhao Yuanfan Guo J. N. Han Hang Xu Xiaodan Liang VGen DiffM 51 5 0 23 Aug 2024
EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions Zhiyuan Chen Jiajiong Cao Zhiquan Chen Yuming Li Chenguang Ma VGen 67 55 0 11 Jul 2024
LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control Jianzhu Guo Dingyun Zhang Xiaoqiang Liu Zhizhou Zhong Yuan Zhang Pengfei Wan Di Zhang VGen 85 56 0 03 Jul 2024
MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance Yuang Zhang Jiaxi Gu Li-Wen Wang Han Wang Junqi Cheng Yuefeng Zhu Fangyuan Zou VGen 84 75 0 28 Jun 2024
Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation Mingwang Xu Hui Li Qingkun Su Hanlin Shang Liwei Zhang Ce Liu Jingdong Wang Yao Yao Siyu Zhu VGen 57 76 0 13 Jun 2024
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time Sicheng Xu Guojun Chen Yu-Xiao Guo Jiaolong Yang Chong Li Zhenyu Zang Yizhong Zhang Xin Tong Baining Guo 67 90 0 16 Apr 2024
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward Ruohong Zhang Liangke Gui Zhiqing Sun Yihao Feng Keyang Xu ... Di Fu Chunyuan Li Alexander G. Hauptmann Yonatan Bisk Yiming Yang MLLM 82 66 0 01 Apr 2024
AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation Huawei Wei Zejun Yang Zhisheng Wang VGen DiffM 48 72 0 26 Mar 2024
Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance Shenhao Zhu Junming Leo Chen Zuozhuo Dai Qingkun Su Yinghui Xu Xun Cao Yao Yao Hao Zhu Siyu Zhu 3DH VGen 64 114 0 21 Mar 2024
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Patrick Esser Sumith Kulal A. Blattmann Rahim Entezari Jonas Muller ... Zion English Kyle Lacey Alex Goodwin Yannik Marek Robin Rombach DiffM 206 1,187 0 05 Mar 2024
EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions Linrui Tian Qi Wang Bang Zhang Liefeng Bo DiffM 89 108 0 27 Feb 2024
Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback Daechul Ahn Yura Choi Youngjae Yu Dongyeop Kang Jonghyun Choi VLM 47 18 0 06 Feb 2024
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation Chenxu Zhang Chao Wang Jianfeng Zhang Hongyi Xu Guoxian Song You Xie Linjie Luo Yapeng Tian Xiaohu Guo Jiashi Feng 74 20 0 21 Dec 2023
DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models Yifeng Ma Shiwei Zhang Jiayu Wang Xiang Wang Yingya Zhang Zhidong Deng DiffM 78 23 0 15 Dec 2023
VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior Xusen Sun Longhao Zhang Hao Zhu Peng Zhang Bang Zhang Xinya Ji Kangneng Zhou Daiheng Gao Liefeng Bo Xun Cao VGen 58 25 0 04 Dec 2023
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation Liucheng Hu Xin Gao Peng Zhang Ke Sun Bang Zhang Liefeng Bo DiffM VGen 62 361 0 28 Nov 2023
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 205 1,082 0 25 Nov 2023
Diffusion Model Alignment Using Direct Preference Optimization Bram Wallace Meihua Dang Rafael Rafailov Linqi Zhou Aaron Lou Senthil Purushwalkam Stefano Ermon Caiming Xiong Shafiq Joty Nikhil Naik EGVM 77 251 0 21 Nov 2023
Aligning Large Multimodal Models with Factually Augmented RLHF Zhiqing Sun Sheng Shen Shengcao Cao Haotian Liu Chunyuan Li ... Liangyan Gui Yu-Xiong Wang Yiming Yang Kurt Keutzer Trevor Darrell VLM 79 351 0 25 Sep 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 197 11,484 0 18 Jul 2023
Segment Anything A. Kirillov Eric Mintun Nikhila Ravi Hanzi Mao Chloe Rolland ... Spencer Whitehead Alexander C. Berg Wan-Yen Lo Piotr Dollár Ross B. Girshick MLLM VLM 241 7,047 0 05 Apr 2023
Adding Conditional Control to Text-to-Image Diffusion Models Lvmin Zhang Anyi Rao Maneesh Agrawala AI4CE 60 4,015 1 10 Feb 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 379 4,465 0 30 Jan 2023
DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation Shuai Shen Wenliang Zhao Zibin Meng Wanhua Li Zhengbiao Zhu Jie Zhou Jiwen Lu DiffM VGen 58 104 0 10 Jan 2023
SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation Wenxuan Zhang Xiaodong Cun Xuan Wang Yong Zhang Xiaodong Shen Yu-Xiao Guo Ying Shan Fei Wang VGen 65 240 0 22 Nov 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 276 3,458 0 29 Apr 2022
Swin Transformer V2: Scaling Up Capacity and Resolution Ze Liu Han Hu Yutong Lin Zhuliang Yao Zhenda Xie ... Yue Cao Zheng Zhang Li Dong Furu Wei B. Guo ViT 178 1,783 0 18 Nov 2021
A Good Image Generator Is What You Need for High-Resolution Video Synthesis Yu Tian Jian Ren Menglei Chai Kyle Olszewski Xi Peng Dimitris N. Metaxas Sergey Tulyakov VGen 87 186 0 30 Apr 2021
A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild Prajwal K R Rudrabha Mukhopadhyay Vinay P. Namboodiri C. V. Jawahar EGVM 77 772 0 23 Aug 2020
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 162 5,677 0 20 Jun 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 284 17,550 0 19 Jun 2020
Accurate 3D Face Reconstruction with Weakly-Supervised Learning: From Single Image to Image Set Yu Deng Jiaolong Yang Sicheng Xu Dong Chen Yunde Jia Xin Tong CVBM 3DV 3DH 49 692 0 20 Mar 2019
Towards Accurate Generative Models of Video: A New Metric & Challenges Thomas Unterthiner Sjoerd van Steenkiste Karol Kurach Raphaël Marinier Marcin Michalski Sylvain Gelly EGVM VGen 55 711 0 03 Dec 2018