Title
VIOLIN: A Large-Scale Dataset for Video-and-Language Inference J. Liu Wenhu Chen Yu Cheng Zhe Gan Licheng Yu Yiming Yang Jingjing Liu MLLM VGen 43 68 0 25 Mar 2020
Video Object Grounding using Semantic Roles in Language Description Arka Sadhu Kan Chen Ram Nevatia 21 48 0 24 Mar 2020
Temporally Coherent Embeddings for Self-Supervised Video Representation Learning Joshua Knights Ben Harwood Daniel Ward Anthony Vanderkop Olivia Mackenzie-Ross Peyman Moghadam AI4TS 28 38 0 21 Mar 2020
$Fully Automated Hand Hygiene Monitoring\\in Operating Room using 3D Convolutional Neural Network$ Fully Automated Hand Hygiene Monitoring\\in Operating Room using 3D Convolutional Neural Network Minjee Kim Joonmyeong Choi Namkug Kim 6 3 0 20 Mar 2020
Temporal Extension Module for Skeleton-Based Action Recognition Yuya Obinata Takuma Yamamoto 33 34 0 19 Mar 2020
PIC: Permutation Invariant Convolution for Recognizing Long-range Activities Noureldien Hussein E. Gavves A. Smeulders VLM 31 13 0 18 Mar 2020
Watching the World Go By: Representation Learning from Unlabeled Videos Daniel Gordon Kiana Ehsani Dieter Fox Ali Farhadi SSL AI4TS 29 87 0 18 Mar 2020
Predictively Encoded Graph Convolutional Network for Noise-Robust Skeleton-based Action Recognition Jongmin Yu Yongsang Yoon M. Jeon 37 44 0 17 Mar 2020
Energy-based Periodicity Mining with Deep Features for Action Repetition Counting in Unconstrained Videos Jianqin Yin Yanchun Wu Huaping Liu Yonghao Dang Zhiyi Liu Jun Liu 12 10 0 15 Mar 2020
Interaction Graphs for Object Importance Estimation in On-road Driving Videos Zehua Zhang Ashish Tawari Sujitha Martin David J. Crandall GNN FAtt 17 23 0 12 Mar 2020
PANDA: A Gigapixel-level Human-centric Video Dataset Xueyan Wang Xiya Zhang Yinheng Zhu Yuchen Guo Xiaoyun Yuan ... Zerun Wang Guiguang Ding D. Brady Qionghai Dai Lu Fang VGen 44 79 0 10 Mar 2020
On Compositions of Transformations in Contrastive Self-Supervised Learning Mandela Patrick Yuki M. Asano Polina Kuznetsova Ruth C. Fong João F. Henriques Geoffrey Zweig Andrea Vedaldi 23 49 0 09 Mar 2020
Transformation-based Adversarial Video Prediction on Large-Scale Data Pauline Luc Aidan Clark Sander Dieleman Diego de Las Casas Yotam Doron Albin Cassirer Karen Simonyan VGen 237 86 0 09 Mar 2020
TTPP: Temporal Transformer with Progressive Prediction for Efficient Action Anticipation Wen Wang Xiaojiang Peng Yanzhou Su Yu Qiao Jian Cheng AI4TS 25 18 0 07 Mar 2020
Unifying Graph Embedding Features with Graph Convolutional Networks for Skeleton-based Action Recognition Ke Wang M. M. Li Hong Fu Jicong Fan Zhao Zhang Howard Leung 43 5 0 06 Mar 2020
Detecting Attended Visual Targets in Video Eunji Chong Yongxin Wang Nataniel Ruiz James M. Rehg 199 112 0 05 Mar 2020
Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications Biagio Brattoli Joseph Tighe Fedor Zhdanov Pietro Perona Krzysztof Chalupka VLM 137 127 0 03 Mar 2020
VideoSSL: Semi-Supervised Learning for Video Classification Longlong Jing T. Parag Zhe Wu Yingli Tian Hongcheng Wang 26 50 0 29 Feb 2020
Indoor Scene Recognition in 3D Shengyu Huang Mikhail (Misha) Usvyatsov Konrad Schindler 3DV 3DPC 26 19 0 28 Feb 2020
Evolving Losses for Unsupervised Video Representation Learning A. Piergiovanni A. Angelova Michael S. Ryoo SSL 27 138 0 26 Feb 2020
Object Relational Graph with Teacher-Recommended Learning for Video Captioning Ziqi Zhang Yaya Shi Chunfen Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha VLM 37 271 0 26 Feb 2020
Bottom-Up Temporal Action Localization with Mutual Regularization Peisen Zhao Lingxi Xie Chen Ju Ya Zhang Yanfeng Wang Qi Tian 12 1 0 18 Feb 2020
Over-the-Air Adversarial Flickering Attacks against Video Recognition Networks Roi Pony I. Naeh Shie Mannor AAML 21 51 0 12 Feb 2020
An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos Sicheng Zhao Yunsheng Ma Yang Gu Jufeng Yang Tengfei Xing Pengfei Xu Runbo Hu Hua Chai Kurt Keutzer 19 98 0 12 Feb 2020
Two-Stream Aural-Visual Affect Analysis in the Wild Felix Kuhnke Lars Rumberg Jörn Ostermann CVBM 59 77 0 09 Feb 2020
Dynamic Inference: A New Approach Toward Efficient Video Action Recognition Wenhao Wu Dongliang He Xiao Tan Shifeng Chen Yi Yang Shilei Wen 27 35 0 09 Feb 2020
FSD-10: A Dataset for Competitive Sports Content Analysis Shenlan Liu Xiang Liu Gao Huang Lin Feng Lianyu Hu Dong Jiang Ai-Xuan Zhang Yang Liu Hong Qiao AI4TS 31 18 0 09 Feb 2020
$Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$ Videos$ Weakly-Supervised Multi-Person Action Recognition in 360 $^{\circ}$ Videos Junnan Li Jianquan Liu Yongkang Wong Shoji Nishimura Mohan S. Kankanhalli 31 13 0 09 Feb 2020
CTM: Collaborative Temporal Modeling for Action Recognition Li-Yu Daisy Liu Tao Wang Jie Liu Yang Guan Qi Bu Longfei Yang TTA 11 0 0 08 Feb 2020
Learning Class Regularized Features for Action Recognition Alexandros Stergiou R. Poppe R. Veltkamp 12 3 0 07 Feb 2020
3D ResNet with Ranking Loss Function for Abnormal Activity Detection in Videos Shikha Dubey Abhijeet Boragule M. Jeon 26 29 0 04 Feb 2020
Bridging Text and Video: A Universal Multimodal Transformer for Video-Audio Scene-Aware Dialog Zekang Li Zongjia Li Jinchao Zhang Yang Feng Cheng Niu Jie Zhou 24 37 0 01 Feb 2020
ERA: A Dataset and Deep Learning Benchmark for Event Recognition in Aerial Videos Lichao Mou Yuansheng Hua P. Jin Xiaoxiang Zhu AI4TS 23 44 0 30 Jan 2020
Human Action Performance using Deep Neuro-Fuzzy Recurrent Attention Model Nihar Bendre Nima Ebadi John J. Prevost Paul Rad HAI 22 24 0 29 Jan 2020
TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval Jie Lei Licheng Yu Tamara L. Berg Joey Tianyi Zhou 119 277 0 24 Jan 2020
Audiovisual SlowFast Networks for Video Recognition Fanyi Xiao Yong Jae Lee Kristen Grauman Jitendra Malik Christoph Feichtenhofer 197 207 0 23 Jan 2020
Zero-Shot Activity Recognition with Videos Evin Pınar Örnek 13 1 0 22 Jan 2020
Are Accelerometers for Activity Recognition a Dead-end? C. Tong Shyam A. Tailor Nicholas D. Lane HAI 6 33 0 22 Jan 2020
Weakly Supervised Temporal Action Localization Using Deep Metric Learning Ashraful Islam Richard J. Radke 27 46 0 21 Jan 2020
A Comprehensive Study on Temporal Modeling for Online Action Detection Wen Wang Xiaojiang Peng Yu Qiao Jian Cheng 39 2 0 21 Jan 2020
The benefits of synthetic data for action categorization Mohamad Ballout Mohammad Tuqan Daniel C. Asmar Elie A. Shammas George E. Sakr 14 6 0 20 Jan 2020
Spatio-Temporal Ranked-Attention Networks for Video Captioning A. Cherian Jue Wang Chiori Hori Tim K. Marks AI4TS 22 19 0 17 Jan 2020
Learning Spatiotemporal Features via Video and Text Pair Discrimination Tianhao Li Limin Wang VGen 18 55 0 16 Jan 2020
Rethinking Motion Representation: Residual Frames with 3D ConvNets for Better Action Recognition Li Tao Xueting Wang T. Yamasaki 3DPC 22 24 0 16 Jan 2020
Deep Audio-Visual Learning: A Survey Hao Zhu Mandi Luo Rui Wang A. Zheng Ran He 31 156 0 14 Jan 2020
An Exploration of Embodied Visual Exploration Santhosh Kumar Ramakrishnan Dinesh Jayaraman Kristen Grauman LM&Ro 37 98 0 07 Jan 2020
Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning Dezhao Luo Chang-rui Liu Yu Zhou Dongbao Yang Can Ma QiXiang Ye Weiping Wang SSL 25 160 0 02 Jan 2020
Graph Embedded Pose Clustering for Anomaly Detection Amir Markovitz Gilad Sharir Itamar Friedman Lihi Zelnik-Manor S. Avidan 3DH 27 167 0 26 Dec 2019
Improving Visual Recognition using Ambient Sound for Supervision Rohan Mahadev Hongyu Lu 12 1 0 25 Dec 2019
Focusing and Diffusion: Bidirectional Attentive Graph Convolutional Networks for Skeleton-based Action Recognition Jialin Gao Tong He Xiaoping Zhou Shiming Ge 27 18 0 24 Dec 2019