Title
Self-Supervised Video Representation Learning with Meta-Contrastive Network Yuanze Lin Xun Guo Yan Lu SSL 27 41 0 19 Aug 2021
The Multi-Modal Video Reasoning and Analyzing Competition Haoran Peng He Huang Li Xu Tianjiao Li Jing Liu ... Yuanzhong Liu Tao He Fuwei Zhang Xianbin Liu Tao Lin 30 2 0 18 Aug 2021
Generalized and Incremental Few-Shot Learning by Explicit Learning and Calibration without Forgetting Anna Kukleva Hilde Kuehne Bernt Schiele CLL 20 50 0 18 Aug 2021
Target Adaptive Context Aggregation for Video Scene Graph Generation Yao Teng Limin Wang Zhifeng Li Gangshan Wu 42 62 0 18 Aug 2021
Channel-Temporal Attention for First-Person Video Domain Adaptation Xianyuan Liu Shuo Zhou Tao Lei Haiping Lu EgoV 26 0 0 17 Aug 2021
Temporal Action Segmentation with High-level Complex Activity Labels Guodong Ding Angela Yao 38 18 0 15 Aug 2021
Learning to Cut by Watching Movies Alejandro Pardo Fabian Caba Heilbron Juan Carlos León Alcázar Ali K. Thabet Guohao Li VGen 63 20 0 09 Aug 2021
Learning an Augmented RGB Representation with Cross-Modal Knowledge Distillation for Action Detection Rui Dai Srijan Das Francois Bremond 48 39 0 08 Aug 2021
Video Contrastive Learning with Global Context Haofei Kuang Yi Zhu Zhi-Li Zhang Xinyu Li Joseph Tighe Sören Schwertfeger C. Stachniss Mu Li SSL AI4TS 32 60 0 05 Aug 2021
Unifying Nonlocal Blocks for Neural Networks Lei Zhu Qi She Duo Li Yanye Lu Xuejing Kang Jie Hu Changhu Wang 22 23 0 05 Aug 2021
O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning Fenglin Liu Xuancheng Ren Xian Wu Bang-ju Yang Shen Ge Yuexian Zou Xu Sun 32 32 0 05 Aug 2021
Skeleton Split Strategies for Spatial Temporal Graph Convolution Networks Motasem S. Alsawadi Miguel Rio 3DH GNN 27 7 0 03 Aug 2021
RFC-HyPGCN: A Runtime Sparse Feature Compress Accelerator for Skeleton-Based GCNs Action Recognition Model with Hybrid Pruning Dong Wen Jingfei Jiang Jinwei Xu Kang Wang Tao Xiao Yang Zhao Y. Dou GNN 29 7 0 02 Aug 2021
Video Generation from Text Employing Latent Path Construction for Temporal Modeling Amir Mazaheri M. Shah 30 8 0 29 Jul 2021
Enriching Local and Global Contexts for Temporal Action Localization Zixin Zhu Wei Tang Le Wang N. Zheng G. Hua 29 109 0 27 Jul 2021
The CORSMAL benchmark for the prediction of the properties of containers Alessio Xompero Santiago Donaher Vladimir E. Iashin Francesca Palermo Gokhan Solak ... G. Neeharika Chinnakotla Krishna Teja Reddy Dinesh Jain B. Rehman Andrea Cavallaro 35 10 0 27 Jul 2021
Cross-modal Consensus Network for Weakly Supervised Temporal Action Localization Fa-Ting Hong Jialuo Feng Dan Xu Ying Shan Weishi Zheng 13 84 0 27 Jul 2021
Spatial-Temporal Transformer for Dynamic Scene Graph Generation Yuren Cong Wentong Liao H. Ackermann Bodo Rosenhahn M. Yang ViT 24 123 0 26 Jul 2021
Adaptive Hierarchical Graph Reasoning with Semantic Coherence for Video-and-Language Inference Juncheng Li Siliang Tang Linchao Zhu Haochen Shi Xuanwen Huang Fei Wu Yi Yang Yueting Zhuang 27 28 0 26 Jul 2021
Temporal Alignment Prediction for Few-Shot Video Classification Fei Pan Chunlei Xu Jie Guo Yanwen Guo AI4TS 37 1 0 26 Jul 2021
Transcript to Video: Efficient Clip Sequencing from Texts Yu Xiong Fabian Caba Heilbron Dahua Lin CLIP 33 10 0 25 Jul 2021
Adaptive Recursive Circle Framework for Fine-grained Action Recognition Hanxi Lin Xinxiao Wu Jiebo Luo 30 1 0 25 Jul 2021
TinyAction Challenge: Recognizing Real-world Low-resolution Activities in Videos Praveen Tirupattur A. J. Rana Tushar Sangam Shruti Vyas Yogesh S Rawat M. Shah 22 6 0 24 Jul 2021
Federated Action Recognition on Heterogeneous Embedded Devices Pranjali Jain Shreyas Goenka S. Bagchi Biplab Banerjee Somali Chaterji FedML 51 7 0 18 Jul 2021
Agent-Environment Network for Temporal Action Proposal Generation Viet-Khoa Vo-Ho Ngan Le Kashu Yamazaki Akihiro Sugimoto Minh-Triet Tran EgoV 19 9 0 17 Jul 2021
CCVS: Context-aware Controllable Video Synthesis G. L. Moing Jean Ponce Cordelia Schmid 27 78 0 16 Jul 2021
MultiBench: Multiscale Benchmarks for Multimodal Representation Learning Paul Pu Liang Yiwei Lyu Xiang Fan Zetian Wu Yun Cheng ... Peter Wu Michelle A. Lee Yuke Zhu Ruslan Salakhutdinov Louis-Philippe Morency VLM 37 160 0 15 Jul 2021
Let's Play for Action: Recognizing Activities of Daily Living by Learning from Life Simulation Video Games Alina Roitberg David Schneider Aulia Djamal C. Seibold Simon Reiß Rainer Stiefelhagen 41 30 0 12 Jul 2021
Delta Sampling R-BERT for limited data and low-light action recognition Sanchit Hira Ritwik Das Abhinav Modi D. Pakhomov 80 17 0 12 Jul 2021
Partial Video Domain Adaptation with Partial Adversarial Temporal Attentive Network Yuecong Xu Jianfei Yang Haozhi Cao Qi Li K. Mao Zhenghua Chen AI4TS 51 32 0 11 Jul 2021
Aligning Correlation Information for Domain Adaptation in Action Recognition Yuecong Xu Jianfei Yang Haozhi Cao K. Mao Jianxiong Yin Simon See 24 38 0 11 Jul 2021
RGB Stream Is Enough for Temporal Action Detection Chenhao Wang Hongxiang Cai Yuxin Zou Yichao Xiong 31 25 0 09 Jul 2021
Multi-Modality Task Cascade for 3D Object Detection Jinhyung D. Park Xinshuo Weng Yunze Man Kris Kitani 3DPC 21 7 0 08 Jul 2021
Federated Learning for Multi-Center Imaging Diagnostics: A Study in Cardiovascular Disease Akis Linardos Kaisar Kushibar S. Walsh P. Gkontra Karim Lekadir FedML 25 63 0 07 Jul 2021
iPOKE: Poking a Still Image for Controlled Stochastic Video Synthesis A. Blattmann Timo Milbich Michael Dorkenwald Bjorn Ommer DiffM VGen 19 41 0 06 Jul 2021
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer Zineng Tang Jaemin Cho Hao Tan Joey Tianyi Zhou VLM 38 29 0 06 Jul 2021
Inter-intra Variant Dual Representations forSelf-supervised Video Recognition Lin Zhang Qi She Zhengyang Shen Changhu Wang SSL 35 9 0 02 Jul 2021
A Survey on Deep Learning Technique for Video Segmentation Tianfei Zhou Fatih Porikli David J. Crandall Luc Van Gool Wenguan Wang VOS 39 232 0 02 Jul 2021
Attention Bottlenecks for Multimodal Fusion Arsha Nagrani Shan Yang Anurag Arnab A. Jansen Cordelia Schmid Chen Sun 48 544 0 30 Jun 2021
Cyclist Trajectory Forecasts by Incorporation of Multi-View Video Information Stefan Zernetsch Oliver Trupp Viktor Kress Konrad Doll Bernhard Sick 35 3 0 30 Jun 2021
Learning Task Informed Abstractions Xiang Fu Ge Yang Pulkit Agrawal Tommi Jaakkola 34 65 0 29 Jun 2021
Feature Combination Meets Attention: Baidu Soccer Embeddings and Transformer based Temporal Detection Xin Zhou Le Kang Zhiyu Cheng Bo He Jingyu Xin 51 34 0 28 Jun 2021
Can An Image Classifier Suffice For Action Recognition? Quanfu Fan Chun-Fu Chen Chen Yikang Shen ViT 41 34 0 26 Jun 2021
Video Swin Transformer Ze Liu Jia Ning Yue Cao Yixuan Wei Zheng Zhang Stephen Lin Han Hu ViT 44 1,448 0 24 Jun 2021
DROID: Driver-centric Risk Object Identification Chengxi Li Stanley H. Chan Yi-Ting Chen 44 6 0 24 Jun 2021
A Survey on Human-aware Robot Navigation Ronja Möller Antonino Furnari Sebastiano Battiato Aki Härmä G. Farinella 49 87 0 22 Jun 2021
Do sound event representations generalize to other audio tasks? A case study in audio transfer learning Anurag Kumar Yun Wang V. Ithapu Christian Fuegen 24 3 0 21 Jun 2021
Towards Long-Form Video Understanding Chaoxia Wu Philipp Krahenbuhl VLM ViT 59 166 0 21 Jun 2021
TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? Michael S. Ryoo A. Piergiovanni Anurag Arnab Mostafa Dehghani A. Angelova ViT 37 128 0 21 Jun 2021
The Arm-Swing Is Discriminative in Video Gait Recognition for Athlete Re-Identification Yapkan Choi Y. Napolean Jan van Gemert CVBM 19 7 0 21 Jun 2021