SEED-Story: Multimodal Long Story Generation with Large Language Model

SEED-Story: Multimodal Long Story Generation with Large Language Model

11 July 2024

Yingcong Chen

Papers citing "SEED-Story: Multimodal Long Story Generation with Large Language Model"

12 / 12 papers shown

Title
CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition Quynh Phung Long Mai Fabian Caba Heilbron Feng Liu Jia-Bin Huang Cusuh Ham DiffM VGen CoGe 108 0 0 28 Apr 2025
SCORE: Story Coherence and Retrieval Enhancement for AI Narratives Qiang Yi Yangfan He J. Wang Xinyuan Song Shiyao Qian ... Keqin Li Kuan Lu Menghao Huo Jiaqi Chen Tianyu Shi RALM 42 8 0 30 Mar 2025
VideoAuteur: Towards Long Narrative Video Generation Junfei Xiao Feng Cheng Lu Qi Liangke Gui Jiepeng Cen Zhibei Ma Alan L. Yuille Lu Jiang VGen 58 2 0 10 Jan 2025
Generative AI for Cel-Animation: A Survey Yunlong Tang Junjia Guo Pinxin Liu Zhiyuan Wang Hang Hua ... Jing Bi Mingqian Feng Xuzhao Li Zeliang Zhang Chenliang Xu VGen 88 7 0 08 Jan 2025
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos Haobo Yuan Xianrui Li Tao Zhang Zilong Huang Shilin Xu S. Ji Yunhai Tong Lu Qi Jiashi Feng Ming Yang VLM 96 11 0 07 Jan 2025
Olympus: A Universal Task Router for Computer Vision Tasks Yuanze Lin Yunsheng Li Dongdong Chen Weijian Xu Ronald Clark Philip H. S. Torr VLM ObjD 197 0 0 12 Dec 2024
Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads Siqi Kou Jiachun Jin Chang Liu Ye Ma Jian Jia Quan Chen Peng Jiang Zhijie Deng Zhijie Deng DiffM VGen VLM 135 6 0 28 Nov 2024
ControlMM: Controllable Masked Motion Generation Ekkasit Pinyoanuntapong Muhammad Usama Saleem Korrawe Karunratanakul Pu Wang Hongfei Xue Cheng Chen Chuan Guo Junli Cao J. Ren Sergey Tulyakov VGen 37 4 0 14 Oct 2024
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer Changyao Tian Xizhou Zhu Yuwen Xiong Weiyun Wang Zhe Chen ... Tong Lu Jie Zhou Hongsheng Li Yu Qiao Jifeng Dai AuLLM 85 42 0 18 Jan 2024
StoryGPT-V: Large Language Models as Consistent Story Visualizers Xiaoqian Shen Mohamed Elhoseiny VLM 101 10 0 04 Dec 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 272 4,244 0 30 Jan 2023
Imagine This! Scripts to Compositions to Videos Tanmay Gupta Dustin Schwenk Ali Farhadi Derek Hoiem Aniruddha Kembhavi CoGe VGen 113 87 0 10 Apr 2018