Long-Short Temporal Contrastive Learning of Video Transformers

17 June 2021

Gedas Bertasius

Papers citing "Long-Short Temporal Contrastive Learning of Video Transformers"

20 / 20 papers shown

Title
Cross-Modal Consistency Learning for Sign Language Recognition Kepeng Wu Zecheng Li Weichao Zhao Hezhen Hu Wengang Zhou SLR 47 0 0 16 Mar 2025
Learning Discriminative Spatio-temporal Representations for Semi-supervised Action Recognition Yu Wang Sanpin Zhou Kun Xia Le Wang 31 0 0 25 Apr 2024
Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic Role Labeling Yu Zhao Hao Fei Yixin Cao Bobo Li Meishan Zhang Jianguo Wei M. Zhang Tat-Seng Chua 17 13 0 09 Aug 2023
MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot Action Recognition Xiang Wang Shiwei Zhang Zhiwu Qing Changxin Gao Yingya Zhang Deli Zhao Nong Sang 19 40 0 03 Apr 2023
HierVL: Learning Hierarchical Video-Language Embeddings Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman VLM AI4TS 22 51 0 05 Jan 2023
Ego-Only: Egocentric Action Detection without Exocentric Transferring Huiyu Wang Mitesh Singh Lorenzo Torresani EgoV 72 23 0 03 Jan 2023
Embodied vision for learning object representations A. Aubret Céline Teulière Jochen Triesch OCL 25 1 0 12 May 2022
Hierarchical Self-supervised Representation Learning for Movie Understanding Fanyi Xiao Kaustav Kundu Joseph Tighe Davide Modolo SSL 37 24 0 06 Apr 2022
Learning To Recognize Procedural Activities with Distant Supervision Xudong Lin Fabio Petroni Gedas Bertasius Marcus Rohrbach Shih-Fu Chang Lorenzo Torresani 24 82 0 26 Jan 2022
Video Transformers: A Survey Javier Selva A. S. Johansen Sergio Escalera Kamal Nasrollahi T. Moeslund Albert Clapés ViT 22 103 0 16 Jan 2022
Exploring Temporal Granularity in Self-Supervised Video Representation Learning Rui Qian Yeqing Li Liangzhe Yuan Boqing Gong Ting Liu Matthew A. Brown Serge J. Belongie Ming-Hsuan Yang Hartwig Adam Yin Cui AI4TS 46 6 0 08 Dec 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 314 5,775 0 29 Apr 2021
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Yin Cui Boqing Gong ViT 248 577 0 22 Apr 2021
ImageNet-21K Pretraining for the Masses T. Ridnik Emanuel Ben-Baruch Asaf Noy Lihi Zelnik-Manor SSeg VLM CLIP 176 686 0 22 Apr 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 280 1,981 0 09 Feb 2021
Video Transformer Network Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann ViT 198 421 0 01 Feb 2021
Transformers in Vision: A Survey Salman Khan Muzammal Naseer Munawar Hayat Syed Waqas Zamir F. Khan M. Shah ViT 227 2,428 0 04 Jan 2021
Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised Video Representation Learning Zehua Zhang David J. Crandall AI4TS SSL 23 23 0 23 Nov 2020
Self-supervised Co-training for Video Representation Learning Tengda Han Weidi Xie Andrew Zisserman SSL 215 308 0 19 Oct 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 267 3,369 0 09 Mar 2020