A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

29 April 2021

Christoph Feichtenhofer

Papers citing "A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning"

50 / 66 papers shown

Title
A Novel Tracking Framework for Devices in X-ray Leveraging Supplementary Cue-Driven Self-Supervised Features Saahil Islam Venkatesh N. Murthy Dominik Neumann Serkan Cimen Puneet Sharma Andreas Maier Dorin Comaniciu Florin-Cristian Ghesu 36 0 0 22 Jan 2025
DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control Zichen Jeff Cui Hengkai Pan Aadhithya Iyer Siddhant Haldar Lerrel Pinto VGen 33 10 0 18 Sep 2024
An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving S. Mohammed Alp Argun Nicolas Bonnotte Gerd Ascheid OffRL 28 0 0 02 Sep 2024
Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective Changwen Zheng Wenwen Qiang Jianqi Zhang Changwen Zheng Jingyao Wang SSL 64 0 0 19 Jul 2024
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition Weichao Zhao Wengang Zhou Hezhen Hu Min Wang Houqiang Li SLR 35 2 0 15 Jun 2024
Visual Representation Learning with Stochastic Frame Prediction Huiwon Jang Dongyoung Kim Junsu Kim Jinwoo Shin Pieter Abbeel Younggyo Seo 42 2 0 11 Jun 2024
Koala: Key frame-conditioned long video-LLM Reuben Tan Ximeng Sun Ping Hu Jui-hsien Wang Hanieh Deilamsalehy Bryan A. Plummer Bryan C. Russell Kate Saenko 38 35 0 05 Apr 2024
Edit3K: Universal Representation Learning for Video Editing Components Xin Gu Libo Zhang Fan Chen Longyin Wen Yufei Wang Tiejian Luo Sijie Zhu 35 4 0 24 Mar 2024
VideoPrism: A Foundational Visual Encoder for Video Understanding Long Zhao N. B. Gundavarapu Liangzhe Yuan Hao Zhou Shen Yan ... Huisheng Wang Hartwig Adam Mikhail Sirotenko Ting Liu Boqing Gong VGen 41 29 0 20 Feb 2024
Collaboratively Self-supervised Video Representation Learning for Action Recognition Jie Zhang Zhifan Wan Lanqing Hu Stephen Lin Shuzhe Wu Shiguang Shan TTA 67 1 0 15 Jan 2024
MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features Adrien Bardes Jean Ponce Yann LeCun MDE 33 23 0 24 Jul 2023
Language-based Action Concept Spaces Improve Video Self-Supervised Learning Kanchana Ranasinghe Michael S. Ryoo SSL VLM 37 12 0 20 Jul 2023
Siamese Masked Autoencoders Agrim Gupta Jiajun Wu Jia Deng Li Fei-Fei 33 48 0 23 May 2023
Diffusion Models as Masked Autoencoders Chen Wei K. Mangalam Po-Yao (Bernie) Huang Yanghao Li Haoqi Fan Hu Xu Huiyu Wang Cihang Xie Alan Yuille Christoph Feichtenhofer DiffM SyDa 36 48 0 06 Apr 2023
VicTR: Video-conditioned Text Representations for Activity Recognition Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo 33 19 0 05 Apr 2023
DPPMask: Masked Image Modeling with Determinantal Point Processes Junde Xu Zikai Lin Donghao Zhou Yao-Cheng Yang Xiangyun Liao Bian Wu Guangyong Chen Pheng-Ann Heng 23 1 0 13 Mar 2023
VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report] Maureen Daum Enhao Zhang Dong He Stephen Mussmann Brandon Haynes Ranjay Krishna Magdalena Balazinska 32 4 0 07 Mar 2023
PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling Yuan Liu Songyang Zhang Jiacheng Chen Kai-xiang Chen Dahua Lin 75 28 0 04 Mar 2023
Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences Christopher Lang Alexander Braun Lars Schillingmann Karsten Haug Abhinav Valada SSL 17 10 0 17 Feb 2023
Similarity Contrastive Estimation for Image and Video Soft Contrastive Self-Supervised Learning J. Denize Jaonary Rabarisoa Astrid Orcesi Romain Hérault SSL 19 6 0 21 Dec 2022
SVFormer: Semi-supervised Video Transformer for Action Recognition Zhen Xing Qi Dai Hang-Rui Hu Jingjing Chen Zuxuan Wu Yu-Gang Jiang ViT 30 69 0 23 Nov 2022
Solving Reasoning Tasks with a Slot Transformer Ryan Faulkner Daniel Zoran LRM 20 1 0 20 Oct 2022
Learning State-Aware Visual Representations from Audible Interactions Himangi Mittal Pedro Morgado Unnat Jain Abhinav Gupta 75 22 0 27 Sep 2022
Pretraining the Vision Transformer using self-supervised methods for vision based Deep Reinforcement Learning Manuel Goulão Arlindo L. Oliveira ViT 35 6 0 22 Sep 2022
Semi-Supervised and Unsupervised Deep Visual Learning: A Survey Yanbei Chen Massimiliano Mancini Xiatian Zhu Zeynep Akata 45 113 0 24 Aug 2022
MAR: Masked Autoencoders for Efficient Action Recognition Zhiwu Qing Shiwei Zhang Ziyuan Huang Xiang Wang Yuehuang Wang Yiliang Lv Changxin Gao Nong Sang 29 42 0 24 Jul 2022
EgoEnv: Human-centric environment representations from egocentric video Tushar Nagarajan Santhosh Kumar Ramakrishnan Ruta Desai James M. Hillis Kristen Grauman EgoV 33 19 0 22 Jul 2022
Federated Self-supervised Learning for Video Understanding Yasar Abbas Ur Rehman Yan Gao Jiajun Shen Pedro Porto Buarque de Gusmão Nicholas D. Lane FedML 36 15 0 05 Jul 2022
Dissecting Self-Supervised Learning Methods for Surgical Computer Vision Sanat Ramesh V. Srivastav Deepak Alapatt Tong Yu Aditya Murali ... Saurav Sharma A. Fleurentin Georgios Exarchakis Alexandros Karargyris N. Padoy 23 42 0 01 Jul 2022
Self-Supervised Learning for Videos: A Survey Madeline Chantry Schiappa Y. S. Rawat M. Shah SSL 36 131 0 18 Jun 2022
Embodied vision for learning object representations A. Aubret Céline Teulière Jochen Triesch OCL 32 1 0 12 May 2022
Scene Consistency Representation Learning for Video Scene Segmentation Haoqian Wu Keyu Chen Yanan Luo Ruizhi Qiao Bo Ren Haozhe Liu Weicheng Xie Linlin Shen SSL 40 16 0 11 May 2022
TransRank: Self-supervised Video Representation Learning via Ranking-based Transformation Recognition Haodong Duan Nanxuan Zhao Kai-xiang Chen Dahua Lin ViT AI4TS 31 19 0 04 May 2022
On Negative Sampling for Audio-Visual Contrastive Learning from Movies Mahdi M. Kalayeh Shervin Ardeshir Lingyi Liu Nagendra Kamath Ashok Chandrashekar SSL 29 3 0 29 Apr 2022
Context-Aware Sequence Alignment using 4D Skeletal Augmentation Taein Kwon Bugra Tekin Siyu Tang Marc Pollefeys 30 13 0 26 Apr 2022
Probabilistic Representations for Video Contrastive Learning Jungin Park Jiyoung Lee Ig-Jae Kim Kwanghoon Sohn SSL 29 43 0 08 Apr 2022
Frequency Selective Augmentation for Video Representation Learning Jinhyung Kim Taeoh Kim Minho Shim Dongyoon Han Dongyoon Wee Junmo Kim AI4TS 46 3 0 08 Apr 2022
Hierarchical Self-supervised Representation Learning for Movie Understanding Fanyi Xiao Kaustav Kundu Joseph Tighe Davide Modolo SSL 44 24 0 06 Apr 2022
ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition Jun Kimata Tomoya Nitta Toru Tamaki 29 10 0 01 Apr 2022
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Zhan Tong Yibing Song Jue Wang Limin Wang ViT 137 1,124 0 23 Mar 2022
AssistQ: Affordance-centric Question-driven Task Completion for Egocentric Assistant B. Wong Joya Chen You Wu Stan Weixian Lei Dongxing Mao Difei Gao Mike Zheng Shou EgoV 32 27 0 08 Mar 2022
Self-supervised Contrastive Learning for Cross-domain Hyperspectral Image Representation Hyungtae Lee H. Kwon SSL 19 17 0 08 Feb 2022
Ranking Info Noise Contrastive Estimation: Boosting Contrastive Learning via Ranked Positives David T. Hoffmann Nadine Behrmann Juergen Gall Thomas Brox M. Noroozi 38 43 0 27 Jan 2022
Learning To Recognize Procedural Activities with Distant Supervision Xudong Lin Fabio Petroni Gedas Bertasius Marcus Rohrbach Shih-Fu Chang Lorenzo Torresani 35 83 0 26 Jan 2022
Leveraging Real Talking Faces via Self-Supervision for Robust Forgery Detection A. Haliassos Rodrigo Mira Stavros Petridis M. Pantic CVBM 32 126 0 18 Jan 2022
Video Transformers: A Survey Javier Selva A. S. Johansen Sergio Escalera Kamal Nasrollahi T. Moeslund Albert Clapés ViT 22 103 0 16 Jan 2022
Boundary-aware Self-supervised Learning for Video Scene Segmentation Jonghwan Mun Minchul Shin Gunsoo Han Sangho Lee S. Ha Joonseok Lee Eun-Sol Kim SSL 46 20 0 14 Jan 2022
Recur, Attend or Convolve? On Whether Temporal Modeling Matters for Cross-Domain Robustness in Action Recognition Sofia Broomé Ernest Pokropek Boyu Li Hedvig Kjellström 21 7 0 22 Dec 2021
Meta-Learning and Self-Supervised Pretraining for Real World Image Translation Ileana Rugina Rumen Dangovski Mark S. Veillette Pooya Khorrami Brian Cheung Olga Simek M. Soljavcić VLM SSL 25 2 0 22 Dec 2021
Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition Yinghao Xu Fangyun Wei Xiao Sun Ceyuan Yang Yujun Shen Bo Dai Bolei Zhou Stephen Lin VLM 33 52 0 17 Dec 2021