Self-Supervised Visual Planning with Temporal Skip Connections

15 October 2017

Papers citing "Self-Supervised Visual Planning with Temporal Skip Connections"

50 / 56 papers shown

Title
Long-Context Autoregressive Video Modeling with Next-Frame Prediction Yuchao Gu Weijia Mao Mike Zheng Shou VGen 73 2 0 25 Mar 2025
AdaWorld: Learning Adaptable World Models with Latent Actions Shenyuan Gao Siyuan Zhou Yilun Du Jun Zhang Chuang Gan VGen 57 3 0 24 Mar 2025
Image Motion Blur Removal in the Temporal Dimension with Video Diffusion Models Wang Pang Zhihao Zhan Xiang Zhu Yechao Bai DiffM 71 1 0 22 Jan 2025
BaB-ND: Long-Horizon Motion Planning with Branch-and-Bound and Neural Dynamics Keyi Shen Jiangwei Yu Huan Zhang Yunzhu Li Yunzhu Li 84 1 0 12 Dec 2024
Restructuring Vector Quantization with the Rotation Trick Christopher Fifty Ronald G. Junkins Dennis Duan Aniketh Iger Jerry W. Liu Ehsan Amid Sebastian Thrun Christopher Ré LLMSV 43 11 0 08 Oct 2024
iVideoGPT: Interactive VideoGPTs are Scalable World Models Jialong Wu Shaofeng Yin Ningya Feng Xu He Dong Li Jianye Hao Mingsheng Long VGen 37 23 0 24 May 2024
STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models Pum Jun Kim Seojun Kim Jaejun Yoo EGVM 21 3 0 30 Jan 2024
AI-Generated Content (AIGC) for Various Data Modalities: A Survey Lin Geng Foo Hossein Rahmani J. Liu 67 31 0 27 Aug 2023
SkyGPT: Probabilistic Short-term Solar Forecasting Using Synthetic Sky Videos from Physics-constrained VideoGPT Yuhao Nie E. Zelikman Andea Scott Quentin Paletta A. Brandt 26 3 0 20 Jun 2023
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation Tsu-jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell VGen 48 37 0 23 Nov 2022
SSGVS: Semantic Scene Graph-to-Video Synthesis Yuren Cong Jinhui Yi Bodo Rosenhahn M. Yang 65 7 0 11 Nov 2022
A unified model for continuous conditional video prediction Xi Ye Guillaume-Alexandre Bilodeau AI4TS 32 7 0 11 Oct 2022
Phenaki: Variable Length Video Generation From Open Domain Textual Description Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang M. Saffar Santiago Castro Julius Kunze D. Erhan DiffM VGen 43 371 0 05 Oct 2022
MaskViT: Masked Visual Pre-Training for Video Prediction Agrim Gupta Stephen Tian Yunzhi Zhang Jiajun Wu Roberto Martín-Martín Li Fei-Fei 100 110 0 23 Jun 2022
Video Diffusion Models Jonathan Ho Tim Salimans Alexey A. Gritsenko William Chan Mohammad Norouzi David J. Fleet DiffM VGen 27 1,504 0 07 Apr 2022
VPTR: Efficient Transformers for Video Prediction Xi Ye Guillaume-Alexandre Bilodeau ViT 19 18 0 29 Mar 2022
Stochastic Video Prediction with Structure and Motion Adil Kaan Akan Sadra Safadoust Fatma Guney VGen 19 9 0 20 Mar 2022
Transframer: Arbitrary Frame Prediction with Generative Models C. Nash João Carreira Jacob Walker Iain Barr Andrew Jaegle Mateusz Malinowski Peter W. Battaglia ViT 14 37 0 17 Mar 2022
CYBORGS: Contrastively Bootstrapping Object Representations by Grounding in Segmentation Renhao Wang Hang Zhao Yang Gao SSL 14 1 0 17 Mar 2022
Diffusion Probabilistic Modeling for Video Generation Ruihan Yang Prakhar Srivastava Stephan Mandt DiffM VGen 34 255 0 16 Mar 2022
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan ViT VGen 16 292 0 24 Nov 2021
Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon Reasoning Dhruv Shah Peng-Tao Xu Yao Lu Ted Xiao Alexander Toshev Sergey Levine Brian Ichter OffRL 14 41 0 04 Nov 2021
A Hierarchical Variational Neural Uncertainty Model for Stochastic Video Prediction Moitreya Chatterjee N. Ahuja A. Cherian UQCV VGen BDL 29 17 0 06 Oct 2021
Multi-Agent Variational Occlusion Inference Using People as Sensors Masha Itkina Ye-Ji Mun Katherine Driggs-Campbell Mykel J. Kochenderfer 24 25 0 05 Sep 2021
Learning to See before Learning to Act: Visual Pre-training for Manipulation Yen-Chen Lin Andy Zeng Shuran Song Phillip Isola Tsung-Yi Lin SSL 11 87 0 01 Jul 2021
A Good Image Generator Is What You Need for High-Resolution Video Synthesis Yu Tian Jian Ren Menglei Chai Kyle Olszewski Xi Peng Dimitris N. Metaxas Sergey Tulyakov VGen 40 183 0 30 Apr 2021
Pushing it out of the Way: Interactive Visual Navigation Kuo-Hao Zeng Luca Weihs Ali Farhadi Roozbeh Mottaghi 15 30 0 28 Apr 2021
EarthNet2021: A large-scale dataset and challenge for Earth surface forecasting as a guided video prediction task C. Requena-Mesa V. Benson Markus Reichstein J. Runge Joachim Denzler 66 50 0 16 Apr 2021
DMotion: Robotic Visuomotor Control with Unsupervised Forward Model Learned from Videos Haoqi Yuan Ruihai Wu Andrew Zhao Hanwang Zhang Zihan Ding Hao Dong 19 3 0 07 Mar 2021
Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction Bohan Wu Suraj Nair Roberto Martin-Martin Li Fei-Fei Chelsea Finn DRL 16 99 0 06 Mar 2021
Predicting Video with VQVAE Jacob Walker Ali Razavi Aaron van den Oord DRL 22 66 0 02 Mar 2021
Learning Temporal Dynamics from Cycles in Narrated Video Dave Epstein Jiajun Wu Cordelia Schmid Chen Sun AI4TS 28 14 0 07 Jan 2021
Mastering Atari with Discrete World Models Danijar Hafner Timothy Lillicrap Mohammad Norouzi Jimmy Ba DRL 11 809 0 05 Oct 2020
Keypoints into the Future: Self-Supervised Correspondence in Model-Based Reinforcement Learning Lucas Manuelli Yunzhu Li Peter R. Florence Russ Tedrake SSL 14 102 0 10 Sep 2020
Latent Video Transformer Ruslan Rakhimov Denis Volkhonskiy Alexey Artemov Denis Zorin Evgeny Burnaev VGen 31 118 0 18 Jun 2020
Deep Visual Reasoning: Learning to Predict Action Sequences for Task and Motion Planning from an Initial Scene Image Danny Driess Jung-Su Ha Marc Toussaint LRM 11 100 0 09 Jun 2020
Stochastic Latent Residual Video Prediction Jean-Yves Franceschi E. Delasalles Mickaël Chen Sylvain Lamprier Patrick Gallinari VGen 26 159 0 21 Feb 2020
Axial Attention in Multidimensional Transformers Jonathan Ho Nal Kalchbrenner Dirk Weissenborn Tim Salimans 13 519 0 20 Dec 2019
Experience-Embedded Visual Foresight Yen-Chen Lin Maria Bauzá Phillip Isola 8 35 0 12 Nov 2019
Adversarial Video Generation on Complex Datasets Aidan Clark Jeff Donahue Karen Simonyan VGen GAN 25 74 0 15 Jul 2019
Improved Conditional VRNNs for Video Prediction Lluis Castrejon Nicolas Ballas Aaron Courville VGen DRL 13 161 0 27 Apr 2019
Segmenting the Future Hsu-kuang Chiu Ehsan Adeli Juan Carlos Niebles 13 44 0 24 Apr 2019
Keyframing the Future: Keyframe Discovery for Visual Prediction and Planning Karl Pertsch Oleh Rybkin Jingyun Yang Shenghao Zhou Konstantinos G. Derpanis Kostas Daniilidis Joseph J. Lim Andrew Jaegle VGen 24 24 0 11 Apr 2019
Point-to-Point Video Generation Tsun-Hsuan Wang Y. Cheng Chieh Hubert Lin Hwann-Tzong Chen Min Sun VGen DiffM 11 21 0 05 Apr 2019
VideoFlow: A Conditional Flow-Based Model for Stochastic Video Generation Manoj Kumar Mohammad Babaeizadeh D. Erhan Chelsea Finn Sergey Levine Laurent Dinh Durk Kingma VGen 22 131 0 04 Mar 2019
Diversity-Sensitive Conditional Generative Adversarial Networks Dingdong Yang Seunghoon Hong Y. Jang Tianchen Zhao Honglak Lee GAN 31 214 0 25 Jan 2019
Grounded Human-Object Interaction Hotspots from Video Tushar Nagarajan Christoph Feichtenhofer Kristen Grauman 16 159 0 11 Dec 2018
Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control F. Ebert Chelsea Finn Sudeep Dasari Annie Xie Alex X. Lee Sergey Levine SSL 18 377 0 03 Dec 2018
Towards Accurate Generative Models of Video: A New Metric & Challenges Thomas Unterthiner Sjoerd van Steenkiste Karol Kurach Raphaël Marinier Marcin Michalski Sylvain Gelly EGVM VGen 19 681 0 03 Dec 2018
Deep Generative Video Compression Jun Han Salvator Lombardo Christopher Schroers Stephan Mandt VGen 24 58 0 05 Oct 2018