Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models

20 November 2022

Papers citing "Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models"

48 / 48 papers shown

Title
One-Minute Video Generation with Test-Time Training Karan Dalal Daniel Koceja Gashon Hussein Jiarui Xu Yue Zhao ... Tatsunori Hashimoto Sanmi Koyejo Yejin Choi Yu Sun Xiaolong Wang ViT 91 4 0 07 Apr 2025
Consistent Subject Generation via Contrastive Instantiated Concepts Lee Hsin-Ying Kelvin Chan Ming Yang DiffM 95 0 0 31 Mar 2025
Object Isolated Attention for Consistent Story Visualization Xiangyang Luo Junhao Cheng Yifan Xie Xin Zhang Tao Feng Ziqiang Liu Fei Ma Fei Richard Yu DiffM 50 1 0 30 Mar 2025
Latent Beam Diffusion Models for Decoding Image Sequences Guilherme Fernandes Vasco Ramos Regev Cohen Idan Szpektor João Magalhães 78 0 0 26 Mar 2025
MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving Haiguang Wang Daqi Liu Hongwei Xie Haisong Liu Enhui Ma Kaicheng Yu Limin Wang Bing Wang VGen 72 0 0 20 Mar 2025
VisAgent: Narrative-Preserving Story Visualization Framework Seungkwon Kim GyuTae Park Sangyeon Kim Seung-Hun Nam 42 0 0 04 Mar 2025
Generative AI for Cel-Animation: A Survey Yunlong Tang Junjia Guo Pinxin Liu Zhiyuan Wang Hang Hua ... Jing Bi Mingqian Feng Xuzhao Li Zeliang Zhang Chenliang Xu VGen 93 7 0 08 Jan 2025
StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration Panwen Hu Jin Jiang Jianqi Chen Mingfei Han Shengcai Liao Xiaojun Chang Xiaodan Liang VGen DiffM 43 5 0 07 Nov 2024
HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation Shanyan Guan Yanhao Ge Ying Tai Jian Yang Wei Li Mingyu You DiffM 34 1 0 10 Oct 2024
Story-Adapter: A Training-free Iterative Framework for Long Story Visualization Jiawei Mao Xiaoke Huang Yunfei Xie Yuanqi Chang Mude Hui Bingjie Xu Yuyin Zhou VGen DiffM 43 0 0 08 Oct 2024
One missing piece in Vision and Language: A Survey on Comics Understanding Emanuele Vivoli Andrey Barsky Mohamed Ali Souibgui Artemis LLabres Marco Bertini Dimosthenis Karatzas 42 3 0 14 Sep 2024
CinePreGen: Camera Controllable Video Previsualization via Engine-powered Diffusion Yiran Chen Anyi Rao Xuekun Jiang Shishi Xiao Ruiqing Ma Zeyu Wang Hui Xiong Bo Dai VGen DiffM 38 1 0 30 Aug 2024
MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning Haoning Wu Shaocheng Shen Qiang Hu Xiaoyun Zhang Ya Zhang Yanfeng Wang 40 10 0 20 Aug 2024
DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion Huiguo He Huan Yang Zixi Tuo Yuan Zhou Qiuyue Wang Yuhang Zhang Zeyu Liu Wenhao Huang Hongyang Chao Jian Yin DiffM VGen 62 12 0 17 Jul 2024
Contrastive Sequential-Diffusion Learning: An approach to Multi-Scene Instructional Video Synthesis Vasco Ramos Yonatan Bitton Michal Yarom Idan Szpektor João Magalhães DiffM 40 1 0 16 Jul 2024
SEED-Story: Multimodal Long Story Generation with Large Language Model Shuai Yang Yuying Ge Yang Li Yukang Chen Yixiao Ge Ying Shan Yingcong Chen VGen DiffM 83 26 0 11 Jul 2024
StoryDiffusion: How to Support UX Storyboarding With Generative-AI Zhaohui Liang Xiaoyu Zhang Kevin Ma Zhao Liu Xipei Ren K. Goucher-Lambert Can Liu DiffM 40 6 0 10 Jul 2024
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation Ethan Chern Jiadi Su Yan Ma Pengfei Liu MLLM 29 29 0 08 Jul 2024
Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models Fei Shen Hu Ye Sibo Liu Jun Zhang Cong Wang Xiao Han Wei Yang 92 34 0 02 Jul 2024
RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance JiaoJiao Fan Haotian Xue Qinsheng Zhang Yongxin Chen 38 1 0 27 May 2024
Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models Xiyu Wang Yufei Wang Satoshi Tsutsui Weisi Lin Bihan Wen Alex C. Kot 50 4 0 20 May 2024
Generating Coherent Sequences of Visual Illustrations for Real-World Manual Tasks João Bordalo Vasco Ramos Rodrigo Valerio Diogo Glória-Silva Yonatan Bitton Michal Yarom Idan Szpektor João Magalhães 36 7 0 16 May 2024
Pixel is a Barrier: Diffusion Models Are More Adversarially Robust Than We Think Haotian Xue Yongxin Chen DiffM AAML 43 3 0 20 Apr 2024
StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion Ming Tao Bing-Kun Bao Hao Tang Yaowei Wang Changsheng Xu DiffM 46 5 0 09 Apr 2024
Many-to-many Image Generation with Auto-regressive Diffusion Models Ying Shen Yizhe Zhang Shuangfei Zhai Lifu Huang J. Susskind Jiatao Gu 43 6 0 03 Apr 2024
Masked Generative Story Transformer with Character Guidance and Caption Augmentation Christos Papadimitriou Giorgos Filandrianos Maria Lymperaiou Giorgos Stamou DiffM 102 1 0 13 Mar 2024
Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation Junyan Wang Zhenhong Sun Zhiyu Tan Xuanbai Chen Weihua Chen Hao Li Cheng Zhang Yang Song 43 9 0 08 Mar 2024
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer Changyao Tian Xizhou Zhu Yuwen Xiong Weiyun Wang Zhe Chen ... Tong Lu Jie Zhou Hongsheng Li Yu Qiao Jifeng Dai AuLLM 85 42 0 18 Jan 2024
Image Content Generation with Causal Reasoning Xiaochuan Li Baoyu Fan Runze Zhang Liang Jin Di Wang Zhenhua Guo Yaqian Zhao Rengang Li LRM 83 6 0 12 Dec 2023
DiffuVST: Narrating Fictional Scenes with Global-History-Guided Denoising Models Shengguang Wu Mei Yuan Qi Su DiffM 17 0 0 12 Dec 2023
Make-A-Storyboard: A General Framework for Storyboard with Disentangled and Merged Control Sitong Su Litao Guo Lianli Gao Hengtao Shen Jingkuan Song DiffM 35 3 0 06 Dec 2023
AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort Wen Wang Canyu Zhao Hao Chen Zhekai Chen Kecheng Zheng Chunhua Shen DiffM 27 22 0 19 Nov 2023
OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation Jie An Zhengyuan Yang Linjie Li Jianfeng Wang K. Lin Zicheng Liu Lijuan Wang Jiebo Luo 25 11 0 11 Oct 2023
Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis Tianyi Song Jiuxin Cao Kun Wang Bo Liu Xiaofeng Zhang DiffM 32 5 0 18 Sep 2023
Synthesizing Long-Term Human Motions with Diffusion Models via Coherent Sampling Zhaohui Yang Bing-Huang Su Ji-Rong Wen DiffM 42 14 0 03 Aug 2023
Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion Models Chang-rui Liu Haoning Wu Yujie Zhong Xiaoyu Zhang Yanfeng Wang Weidi Xie DiffM VLM 30 39 0 01 Jun 2023
TaleCrafter: Interactive Story Visualization with Multiple Characters Yuan Gong Youxin Pang Xiaodong Cun Menghan Xia Yingqing He ... Longyue Wang Yong Zhang Xintao Wang Ying Shan Yujiu Yang DiffM 30 45 0 29 May 2023
Improved Visual Story Generation with Adaptive Context Modeling Zhangyin Feng Yuchen Ren Xinmiao Yu Xiaocheng Feng Duyu Tang Shuming Shi Bing Qin DiffM 34 14 0 26 May 2023
Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability Haotian Xue Alexandre Araujo Bin Hu Yongxin Chen DiffM 38 41 0 25 May 2023
HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image Generation Xu Ju Ailing Zeng Chenchen Zhao Jianan Wang Lei Zhang Qian Xu DiffM 31 86 0 09 Apr 2023
Text-to-image Diffusion Models in Generative AI: A Survey Chenshuang Zhang Chaoning Zhang Mengchun Zhang In So Kweon VLM 51 266 0 14 Mar 2023
ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation Yuxiang Wei Yabo Zhang Zhilong Ji Jinfeng Bai Lei Zhang W. Zuo DiffM 28 314 0 27 Feb 2023
Directed Diffusion: Direct Control of Object Placement through Attention Guidance W. Ma J. P. Lewis Avisek Lahiri Thomas Leung W. Kleijn DiffM 16 65 0 25 Feb 2023
Zero-shot Generation of Coherent Storybook from Plain Text Story using Diffusion Models Hyeonho Jeong Gihyun Kwon Jong Chul Ye 40 20 0 08 Feb 2023
Re-Imagen: Retrieval-Augmented Text-to-Image Generator Wenhu Chen Hexiang Hu Chitwan Saharia William W. Cohen VLM 131 161 0 29 Sep 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 392 4,154 0 28 Jan 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,796 0 24 Feb 2021
Imagine This! Scripts to Compositions to Videos Tanmay Gupta Dustin Schwenk Ali Farhadi Derek Hoiem Aniruddha Kembhavi CoGe VGen 113 87 0 10 Apr 2018