Video Generation

VGen

More data

Innovative methods and technologies for generating high-quality video content using AI and machine learning techniques.

Neighbor communities

51015

Featured Papers

0 / 0 papers shown

All papers

50 / 5,403 papers shown

AnimationBench: Are Video Models Good at Character-Centric Animation? Leyi Wu Pengjun Fang Kai Sun Yazhou Xing Yinwei Wu ... Ziqi Huang Dan Zhou Yingqing He Ying-Cong Chen Qifeng Chen EGVM VGen 5 0 0 16 Apr 2026
Reward-Aware Trajectory Shaping for Few-step Visual Generation Rui Li Bingyu Li Yuanzhi Liang HuangHai Bin Chi Zhang XueLong Li VGen 5 0 0 16 Apr 2026
World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems Runze Li Hongyin Zhang Junxi Jin Qixin Zeng Zifeng Zhuang Yiqi Tang Shangke Lyu Donglin Wang VGen 5 0 0 16 Apr 2026
Seen-to-Scene: Keep the Seen, Generate the Unseen for Video Outpainting Inseok Jeon Minhyeok Lee Seunghoon Lee Minseok Kang Suhwan Cho Sangyoun Lee DiffM VGen 4 0 0 16 Apr 2026
DVFace: Spatio-Temporal Dual-Prior Diffusion for Video Face Restoration Zheng Chen Bowen Chai Rongjun Gao Mingtao Nie Xi Li Bingnan Duan Jianping Fang Xiaohong Liu Linghe Kong Yulun Zhang DiffM VGen 4 0 0 16 Apr 2026
Geometrically Consistent Multi-View Scene Generation from Freehand Sketches Ahmed Bourouis Savas Ozkan Andrea Maracani Yi-Zhe Song Mete Ozay VGen 3DV 5 0 0 15 Apr 2026
Seedance 2.0: Advancing Video Generation for World Complexity Team Seedance De Chen Liyang Chen Xin Chen Ying Chen ... Wenjing Tang Boyang Tao Zirui Tao Dongliang Wang Feng Wang VGen VLM 19 0 0 15 Apr 2026
HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds Team HY-World Chenjie Cao Xuhui Zuo Zhenwei Wang Yisu Zhang ... Yuhong Liu Yuyang Yin Zhiyuan Min Tengfei Wang Chunchao Guo 3DGS SyDa VGen 5 0 0 15 Apr 2026
Blind Bitstream-corrupted Video Recovery via Metadata-guided Diffusion Model Shuyun Wang Hu Zhang Xin Shen Dadong Wang Xin Yu DiffM VGen 6 0 0 15 Apr 2026
DiffMagicFace: Identity Consistent Facial Editing of Real Videos Huanghao Yin Shenkun Xu Kanle Shi Junhai Yong Bin Wang VGen 8 0 0 15 Apr 2026
From Synchrony to Sequence: Exo-to-Ego Generation via Interpolation Mohammad Mahdi Nedko Savov Danda Pani Paudel Luc Van Gool VGen 5 0 0 15 Apr 2026
From Pixels to Nucleotides: End-to-End Token-Based Video Compression for DNA Storage Cihan Ruan Lebin Zhou Bingqing Zhao Rongduo Han Qiming Yuan ... Linyi Han Liang Yang Wei Wang Wei Jiang Nam Ling VGen 9 0 0 15 Apr 2026
DiT as Real-Time Rerenderer: Streaming Video Stylization with Autoregressive Diffusion Transformer Hengye Lyu Zisu Li Yue Hong Yueting Weng Jiaxin Shi Hanwang Zhang Chen Liang DiffM VGen 7 0 0 15 Apr 2026
CANVAS: Continuity-Aware Narratives via Visual Agentic Storyboarding Ishani Mondal Yiwen Song Mihir Parmar Palash Goyal Jordan Boyd-Graber Tomas Pfister Yale Song DiffM VGen 7 0 0 15 Apr 2026
A Unified Conditional Flow for Motion Generation, Editing, and Intra-Structural Retargeting Junlin Li Xinhao Song Siqi Wang Haibin Huang Yili Zhao VGen 5 0 0 15 Apr 2026
VibeFlow: Versatile Video Chroma-Lux Editing through Self-Supervised Learning Yifan Li Pei Cheng Bin Fu Shuai Yang Jiaying Liu VGen 9 0 0 15 Apr 2026
DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis Cheng-You Lu Yi-Shan Hung Wei-Ling Chi Hao-Ping Wang Charlie Li-Ting Tsai Yu-Cheng Chang Yu-Lun Liu Thomas Do Chin-Teng Lin VGen 6 0 0 15 Apr 2026
Lyra 2.0: Explorable Generative 3D Worlds Tianchang Shen Sherwin Bahmani Kai He Sangeetha Grama Srinivasan Tianshi Cao ... Sanja Fidler Jiahui Huang Huan Ling Jun Gao Xuanchi Ren VGen 35 0 0 14 Apr 2026
$Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models$ Robotic Manipulation is Vision-to-Geometry Mapping ( $f(v) \rightarrow G$ ): Vision-Geometry Backbones over Language and Video Models Zijian Song Qichang Li Jiawei Zhou Zhenlong Yuan Tianshui Chen Liang Lin Guangrun Wang LM&Ro VGen 14 0 0 14 Apr 2026
VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization Andrei Atanov Jesse Allardice Roman Bachmann Oğuzhan Fatih Kar R Devon Hjelm David Griffiths Peter Fu Afshin Dehghan Amir Zamir VGen 18 0 0 14 Apr 2026
Unlocking the Potential of Grounding DINO in Videos: Parameter-Efficient Adaptation for Limited-Data Spatial-Temporal Localization Zanyi Wang Fan Li Dengyang Jiang Liuzhuozheng Li Yunhua Zhong Guang Dai Mengmeng Wang VGen 15 0 0 14 Apr 2026
All in One: A Unified Synthetic Data Pipeline for Multimodal Video Understanding Tanzila Rahman Renjie Liao Leonid Sigal VGen SyDa 17 0 0 14 Apr 2026
Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors Rong Wang Ruyi Zha Ziang Cheng Jiayu Yang Pulak Purkait Hongdong Li VGen 3DGS 17 0 0 14 Apr 2026
CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing Gaoxiang Cong Liang Li Jiaxin Ye Zhedong Zhang Hongming Shan Yuankai Qi Qingming Huang VGen 15 0 0 14 Apr 2026
LiveMoments: Reselected Key Photo Restoration in Live Photos via Reference-guided Diffusion Clara Xue Zizheng Yan Zhenning Shi Yuhang Yu Jingyu Zhuang Qi Zhang Jinwei Chen Qingnan Fan 3DH VGen 13 0 0 14 Apr 2026
DreamStereo: Towards Real-Time Stereo Inpainting for HD Videos Yuan Huang Sijie Zhao Jing Cheng Hao Xu Shaohui Jiao VGen 15 0 0 14 Apr 2026
ARGen: Affect-Reinforced Generative Augmentation towards Vision-based Dynamic Emotion Perception Huanzhen Wang Ziheng Zhou Jiaqi Song Li He Yunshi Lan Yan Wang Wenqiang Zhang VGen 13 0 0 14 Apr 2026
ArtifactWorld: Scaling 3D Gaussian Splatting Artifact Restoration via Video Generation Models Xinliang Wang Yifeng Shi Zhenyu Wu 3DGS VGen 16 0 0 14 Apr 2026
Ride the Wave: Precision-Allocated Sparse Attention for Smooth Video Generation Wentai Zhang Ronghui Xi Shiyao Peng Jiayu Huang Haoran Luo Zichen Tang Haihong E VGen 11 0 0 14 Apr 2026
OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin ... Xin Gao Cunjian Chen Shilei Wen Chi-Wing Fu Pheng-Ann Heng DiffM VGen 16 0 0 13 Apr 2026
LottieGPT: Tokenizing Vector Animation for Autoregressive Generation Junhao Chen Kejun Gao Yuehan Cui Mingze Sun Mingjin Chen ... Xiaoxiao Long Fei Ma Qi Tian Ruqi Huang Hao Zhao VGen SLR 23 0 0 13 Apr 2026
Grounded World Model for Semantically Generalizable Planning Quanyi Li Lan Feng Haonan Zhang Wuyang Li Letian Wang Alexandre Alahi Harold Soh LM&Ro VGen 22 0 0 13 Apr 2026
Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction Efstathios Karypidis Spyros Gidaris Nikos Komodakis VGen 16 0 0 13 Apr 2026
Any 3D Scene is Worth 1K Tokens: 3D-Grounded Representation for Scene Generation at Scale Dongxu Wei Qi Xu Zhiqi Li Hangning Zhou Cong Qiu Hailong Qin Mu Yang Zhaopeng Cui Peidong Liu VGen 17 0 0 13 Apr 2026
BoxTuning: Directly Injecting the Object Box for Multimodal Model Fine-Tuning Zekun Qian Ruize Han Wei Feng VGen 24 0 0 13 Apr 2026
AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps Liaoyuan Fan Zetian Xu Chen Cao Wenyao Zhang Mingqi Yuan Jiayu Chen VGen 19 0 0 13 Apr 2026
OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video Junfu Pu Yuxin Chen Teng Wang Ying Shan VGen 14 0 0 13 Apr 2026
LiveGesture Streamable Co-Speech Gesture Generation Model Muhammad Usama Saleem Mayur Jagdishbhai Patel Ekkasit Pinyoanuntapong Zhongxing Qin Li Yang Hongfei Xue Ahmed Helmy Chen Chen Pu Wang SLR VGen 21 0 0 13 Apr 2026
Immune2V: Image Immunization Against Dual-Stream Image-to-Video Generation Zeqian Long Ozgur Kara Haotian Xue Yongxin Chen James M. Rehg AAML VGen 22 0 0 12 Apr 2026
ReplicateAnyScene: Zero-Shot Video-to-3D Composition via Textual-Visual-Spatial Alignment Mingyu Dong Chong Xia Mingyuan Jia Weichen Lyu Long Xu Zheng Zhu Yueqi Duan VGen CoGe 18 0 0 12 Apr 2026
Deep-Reporter: Deep Research for Grounded Multimodal Long-Form Generation Fangda Ye Zhifei Xie Yuxin Hu Yihang Yin Shurui Huang Shikai Dong Jianzhu Bao Shuicheng Yan VGen 14 0 0 12 Apr 2026
UniMark: Unified Adaptive Multi-bit Watermarking for Autoregressive Image Generators Yigit Yilmaz Elena Petrova Mehmet Kaya Lucia Rossi Amir Rahman WIGM VGen 13 0 0 12 Apr 2026
Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing Zeyue Tian Binxin Yang Zhaoyang Liu Jiexuan Zhang Ruibin Yuan ... Qifeng Chen Chen Li Jing Lv Wei Xue Yike Guo AuLLM VGen KELM SyDa 23 0 0 12 Apr 2026
LoViF 2026 The First Challenge on Weather Removal in Videos Chenghao Qian Xin Li Yeying Jin Shangguan Sun Yilian Zhong ... Shuai Liu Qiang Deng Jiajia Mi Qianhao Luo Weiling Li VGen 15 0 0 12 Apr 2026
Rein3D: Reinforced 3D Indoor Scene Generation with Panoramic Video Diffusion Models Dehui Wang Congsheng Xu Rong Wei Yue Shi Shoufa Chen ... Xiaokang Yang Wei Sui Yusen Qin Rui Tang Yao Mu VGen MDE 16 0 0 12 Apr 2026
NTIRE 2026 Challenge on Short-form UGC Video Restoration in the Wild with Generative Models: Datasets, Methods and Results Xin Li Jiachao Gong Xijun Wang Shiyao Xiong Bingchen Li ... Hang Song Qi Xu Kun Yuan Yizhen Shao Yulin Ren VGen 19 0 0 12 Apr 2026
VidAudio-Bench: Benchmarking V2A and VT2A Generation across Four Audio Categories Qian Zhang Yuqin Cao Yixuan Gao Xiongkuo Min VGen 19 0 0 12 Apr 2026
ExpertEdit: Learning Skill-Aware Motion Editing from Expert Videos Arjun Somayazulu Kristen Grauman VGen KELM 16 0 0 12 Apr 2026
A Benchmark and Multi-Agent System for Instruction-driven Cinematic Video Compilation Peixuan Zhang Chang Zhou Ziyuan Zhang Hualuo Liu Chunjie Zhang ... Xiaohui Zhou Xi Chen Shuchen Weng Si Li Boxin Shi VGen 14 0 0 12 Apr 2026
AIM-Bench: Benchmarking and Improving Affective Image Manipulation via Fine-Grained Hierarchical Control Shi Chen Xuecheng Wu Heli Sun Yunyun Shi Xinyi Yin ... Jinheng Xie Dingkang Yang Hao Wang Junxiao Xue Liang He VGen AI4MH 20 0 0 12 Apr 2026

Loading #Papers per Month with "VGen"

Past speakers

Name (-)

Top Contributors

Name (-)

Top Organizations at ResearchTrend.AI

Name (-)

Social Events

Date	Location	Event
No social events available