Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation

8 March 2024

Joseph Cho

Fachrina Dewi Puspitasari

Lik-Hang Lee

Papers citing "Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation"

46 / 46 papers shown

Title
We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback Minkyu Choi Sundar Sripada V. S. Harsh Goel Sahil Shah Sandeep P. Chinchali DiffM VGen 91 0 0 24 Apr 2025
Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments Chenyu Zhang Daniil Cherniavskii Andrii Zadaianchuk Antonios Tragoudaras Antonios Vozikis Thijmen Nijdam Derck W. E. Prinzhorn Mark Bodracska N. Sebe E. Gavves EGVM VGen 54 0 0 03 Apr 2025
HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation Boyuan Wang Xiaofeng Wang Chaojun Ni Guosheng Zhao Zhiqin Yang ... Yukun Zhou Xinze Chen Guan Huang Lihong Liu Xingang Wang VGen 65 2 0 31 Mar 2025
Semantic Latent Motion for Portrait Video Generation Qiyuan Zhang Chenyu Wu Wenzhang Sun Huaize Liu Donglin Di Wei Chen Changqing Zou VGen 72 0 0 13 Mar 2025
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion Ziyi Yang Fanqi Wan Longguang Zhong Canbin Huang Guosheng Liang Xiaojun Quan MoMe 95 0 0 06 Mar 2025
BounTCHA: A CAPTCHA Utilizing Boundary Identification in Guided Generative AI-extended Videos Lehao Lin Ke Wang Maha Abdallah Wei Cai AAML 92 0 0 30 Jan 2025
Generative AI for Cel-Animation: A Survey Yunlong Tang Junjia Guo Pinxin Liu Zhiyuan Wang Hang Hua ... Jing Bi Mingqian Feng Xuzhao Li Zeliang Zhang Chenliang Xu VGen 90 7 0 08 Jan 2025
Vision Technologies with Applications in Traffic Surveillance Systems: A Holistic Survey Wei Zhou Lei Zhao Runyu Zhang Yifan Cui Hongpu Huang Kun Qie Chen Wang AI4TS 73 0 0 30 Nov 2024
Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric Zhichao Zhang Wei Sun Xinyue Li Yunhao Li Qihang Ge ... Zhongpeng Ji Fengyu Sun Shangling Jui Xiongkuo Min Guangtao Zhai EGVM 122 1 0 25 Nov 2024
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey Xuannan Liu Xing Cui Peipei Li Zekun Li Huaibo Huang Shuhan Xia Miaoxuan Zhang Yueying Zou Ran He AAML 67 8 0 14 Nov 2024
Artificial Intelligence for Biomedical Video Generation Linyuan Li Jianing Qiu Anujit Saha Lin Li Poyuan Li Mengxian He Ziyu Guo Wu Yuan VGen 63 1 0 12 Nov 2024
Survey of User Interface Design and Interaction Techniques in Generative AI Applications Reuben Luera Ryan Rossi Alexa F. Siu Franck Dernoncourt Tong Yu ... Hanieh Salehy Jian Zhao Samyadeep Basu Puneet Mathur Nedim Lipka AI4TS 65 1 0 28 Oct 2024
A Transformer Based Generative Chemical Language AI Model for Structural Elucidation of Organic Compounds Xiaofeng Tan 19 1 0 13 Oct 2024
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences Zhikai Li Xuewen Liu Dongrong Fu Jianquan Li Qingyi Gu Kurt Keutzer Zhen Dong EGVM VGen DiffM 92 1 0 26 Aug 2024
LessonPlanner: Assisting Novice Teachers to Prepare Pedagogy-Driven Lesson Plans with Large Language Models Haoxiang Fan Guanzheng Chen Xingbo Wang Zhenhui Peng AI4Ed 33 5 0 02 Aug 2024
Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model Zhichao Zhang Xinyue Li Wei Sun Jun Jia Xiongkuo Min ... Puyi Wang Zhongpeng Ji Fengyu Sun Shangling Jui Guangtao Zhai EGVM 53 5 0 31 Jul 2024
A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights Wentao Lei Jinting Wang Fengji Ma Guanjie Huang Li Liu VGen EGVM 65 8 0 11 Jul 2024
Latent Energy-Based Odyssey: Black-Box Optimization via Expanded Exploration in the Energy-Based Latent Space Peiyu Yu Dinghuai Zhang Hengzhi He Xiaojian Ma Ruiyao Miao ... Deqian Kong Ruiqi Gao Jianwen Xie Guang Cheng Ying Nian Wu 48 5 0 27 May 2024
From Sora What We Can See: A Survey of Text-to-Video Generation Rui Sun Yumin Zhang Tejal Shah Jiahao Sun Shuoying Zhang Wenqi Li Haoran Duan Bo Wei R. Ranjan EGVM 79 20 0 17 May 2024
Sora and V-JEPA Have Not Learned The Complete Real World Model -- A Philosophical Analysis of Video AIs Through the Theory of Productive Imagination Jianqiu Zhang VGen 21 0 0 06 May 2024
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond Zheng Zhu Xiaofeng Wang Wangbo Zhao Chen Min Nianchen Deng ... Dawei Zhao Liang Xiao Jian-jun Zhao Jiwen Lu Guan Huang VGen LM&Ro 87 38 0 06 May 2024
DeepFake-O-Meter v2.0: An Open Platform for DeepFake Detection Yan Ju Chengzhe Sun Shan Jia Shuwei Hou Zhaofeng Si Soumyya Kanti Datta Lipeng Ke Riky Zhou Anita Nikolich Siwei Lyu 34 3 0 19 Apr 2024
BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion Jia Wei Xingjun Zhang Witold Pedrycz DiffM 26 0 0 23 Mar 2024
A Roadmap Towards Automated and Regulated Robotic Systems Yihao Liu Mehran Armand 50 2 0 21 Mar 2024
Endora: Video Generation Models as Endoscopy Simulators Chenxin Li Hengyu Liu Yifan Liu Brandon Yushan Feng Wuyang Li Xinyu Liu Zhen Chen Jing Shao Yixuan Yuan VGen MedIm 80 34 0 17 Mar 2024
From Melting Pots to Misrepresentations: Exploring Harms in Generative AI Sanjana Gautam Pranav Narayanan Venkit Sourojit Ghosh 47 15 0 16 Mar 2024
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Ekaterina Deyneka Hsiang-wei Chao ... Yuwei Fang Hsin-Ying Lee Jian Ren Ming-Hsuan Yang Sergey Tulyakov VGen 89 180 0 29 Feb 2024
VGMShield: Mitigating Misuse of Video Generative Models Yan Pang Yang Zhang Tianhao Wang 42 3 0 20 Feb 2024
Lumiere: A Space-Time Diffusion Model for Video Generation Omer Bar-Tal Hila Chefer Omer Tov Charles Herrmann Roni Paiss ... T. Michaeli Oliver Wang Deqing Sun Tali Dekel Inbar Mosseri VGen 114 216 0 23 Jan 2024
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models Haoxin Chen Yong Zhang Xiaodong Cun Menghan Xia Xintao Wang Chao-Liang Weng Ying Shan VGen DiffM 126 277 0 17 Jan 2024
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation Weimin Wang Jiawei Liu Zhijie Lin Jiangqiao Yan Shuo Chen ... Jie Wu Jun Hao Liew Hanshu Yan Daquan Zhou Jiashi Feng VGen DiffM 79 32 0 09 Jan 2024
VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM Fuchen Long Zhaofan Qiu Ting Yao Tao Mei DiffM VGen 75 22 0 02 Jan 2024
StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter Gongye Liu Menghan Xia Yong Zhang Haoxin Chen Jinbo Xing Xintao Wang Yujiu Yang Ying Shan DiffM VGen 141 0 0 01 Dec 2023
Panacea: Panoramic and Controllable Video Generation for Autonomous Driving Yuqing Wen Yucheng Zhao Yingfei Liu Fan Jia Yanhui Wang Chong Luo Chi Zhang Tiancai Wang Xiaoyan Sun Xiangyu Zhang 72 57 0 28 Nov 2023
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 172 1,019 0 25 Nov 2023
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation Ruiqi Wu Liangyu Chen Tong Yang Chunle Guo Chongyi Li Xiangyu Zhang DiffM VGen 89 52 0 16 Oct 2023
DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model Xiaofan Li Yifu Zhang Xiaoqing Ye VGen 73 71 0 11 Oct 2023
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models Weifeng Chen Yatai Ji Jie Wu Hefeng Wu Pan Xie Jiashi Li Xin Xia Xuefeng Xiao Liang Lin VGen 121 6 0 23 May 2023
The Dark Side of Augmented Reality: Exploring Manipulative Designs in AR Xian Wang Lik-Hang Lee Carlos Bermejo Fernandez Pan Hui 47 29 0 06 Mar 2023
DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics Ivan Kapelyukh Vitalis Vosylius Edward Johns LM&Ro DiffM 113 146 0 05 Oct 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 256 567 0 29 May 2022
Layered Neural Atlases for Consistent Video Editing Yoni Kasten Dolev Ofri-Amar Oliver Wang Tali Dekel VGen 200 160 0 23 Sep 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,796 0 24 Feb 2021
Imagine This! Scripts to Compositions to Videos Tanmay Gupta Dustin Schwenk Ali Farhadi Derek Hoiem Aniruddha Kembhavi CoGe VGen 113 87 0 10 Apr 2018
Xception: Deep Learning with Depthwise Separable Convolutions François Chollet MDE BDL PINN 206 14,376 0 07 Oct 2016
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 345 75,888 0 18 May 2015