Long-term Recurrent Convolutional Networks for Visual Recognition and Description

17 November 2014

Jeff Donahue

Lisa Anne Hendricks

Marcus Rohrbach

Subhashini Venugopalan

Papers citing "Long-term Recurrent Convolutional Networks for Visual Recognition and Description"

50 / 642 papers shown

Title
SMART Frame Selection for Action Recognition Shreyank N. Gowda Marcus Rohrbach Laura Sevilla-Lara 26 141 0 19 Dec 2020
TDN: Temporal Difference Networks for Efficient Action Recognition Limin Wang Zhan Tong Bin Ji Gangshan Wu 6 391 0 18 Dec 2020
GTA: Global Temporal Attention for Video Action Understanding Bo He Xitong Yang Zuxuan Wu Hao Chen Ser-Nam Lim Abhinav Shrivastava ViT 33 27 0 15 Dec 2020
Convolutional LSTM Neural Networks for Modeling Wildland Fire Dynamics J. Burge M. Bonanni M. Ihme Lily Hu 19 19 0 11 Dec 2020
A Comprehensive Study of Deep Video Action Recognition Yi Zhu Xinyu Li Chunhui Liu Mohammadreza Zolfaghari Yuanjun Xiong Chongruo Wu Zhi-Li Zhang Joseph Tighe R. Manmatha Mu Li VLM AI4TS 38 185 0 11 Dec 2020
Understanding Action Sequences based on Video Captioning for Learning-from-Observation Iori Yanokura Naoki Wake Kazuhiro Sasabuchi Katsushi Ikeuchi Masayuki Inaba 22 4 0 09 Dec 2020
Robust Image Captioning Daniel Yarnell Xian Wang 16 0 0 06 Dec 2020
Scan2Cap: Context-aware Dense Captioning in RGB-D Scans Dave Zhenyu Chen A. Gholami Matthias Nießner Angel X. Chang 3DPC 23 157 0 03 Dec 2020
BERT-hLSTMs: BERT and Hierarchical LSTMs for Visual Storytelling Jing Su Qingyun Dai Frank Guerin Mian Zhou 24 24 0 03 Dec 2020
PS-DeVCEM: Pathology-sensitive deep learning model for video capsule endoscopy based on weakly labeled data A. Mohammed I. Farup Marius Pedersen Sule YAYILGAN YILDIRIM Ø. Hovde 34 18 0 22 Nov 2020
CGAP2: Context and gap aware predictive pose framework for early detection of gestures Nishant Bhattacharya Suresh Sundaram 16 0 0 18 Nov 2020
Temporal Stochastic Softmax for 3D CNNs: An Application in Facial Expression Recognition T. Ayral M. Pedersoli Simon L Bacon Eric Granger CVBM 3DH 13 11 0 10 Nov 2020
Pose-based Body Language Recognition for Emotion and Psychiatric Symptom Interpretation Zhengyuan Yang Amanda Kay Yuncheng Li Wendi F. Cross Jiebo Luo 25 17 0 30 Oct 2020
Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition Chun-Fu Chen Rameswar Panda K. Ramakrishnan Rogerio Feris J. M. Cohn A. Oliva Quanfu Fan 23 95 0 22 Oct 2020
BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues Hung Le Doyen Sahoo Nancy F. Chen S. Hoi 40 30 0 20 Oct 2020
A Variational Information Bottleneck Based Method to Compress Sequential Networks for Human Action Recognition Ayush Srivastava Oshin Dutta A. Prathosh Sumeet Agarwal Jigyasa Gupta 12 8 0 03 Oct 2020
Defending Against Multiple and Unforeseen Adversarial Videos Shao-Yuan Lo Vishal M. Patel AAML 23 23 0 11 Sep 2020
HAA500: Human-Centric Atomic Action Dataset with Curated Videos Jihoon Chung Cheng-hsin Wuu Hsuan-ru Yang Yu-Wing Tai Chi-Keung Tang 13 43 0 11 Sep 2020
Temporal Context Aggregation for Video Retrieval with Contrastive Learning Jie Shao Xin Wen Bingchen Zhao Xiangyang Xue AI4TS 38 4 0 04 Aug 2020
Late Temporal Modeling in 3D CNN Architectures with BERT for Action Recognition M. E. Kalfaoglu Sinan Kalkan Aydin Alatan 3DPC 28 140 0 03 Aug 2020
Adversarial Bipartite Graph Learning for Video Domain Adaptation Yadan Luo Zi Huang Zijian Wang Zheng-Wei Zhang Mahsa Baktashmotlagh 24 51 0 31 Jul 2020
Enriching Video Captions With Contextual Text Philipp Rimle Pelin Dogan Markus Gross 30 3 0 29 Jul 2020
Approximated Bilinear Modules for Temporal Modeling Xinqi Zhu Chang Xu Langwen Hui Cewu Lu Dacheng Tao 17 23 0 25 Jul 2020
A Comprehensive Study on Deep Learning-based Methods for Sign Language Recognition Nikolas Adaloglou Theocharis Chatzis Ilias Papastratis Andreas Stergioulas Georgios Th. Papadopoulos Vassia Zacharopoulou George J. Xydopoulos Klimnis Atzakas D. Papazachariou P. Daras 32 37 0 24 Jul 2020
MotionSqueeze: Neural Motion Feature Learning for Video Understanding Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho FAtt 20 128 0 20 Jul 2020
Learning to Discretely Compose Reasoning Module Networks for Video Captioning Ganchao Tan Daqing Liu Meng Wang Zhengjun Zha LRM 25 73 0 17 Jul 2020
Fusing Motion Patterns and Key Visual Information for Semantic Event Recognition in Basketball Videos Lifang Wu Zhou Yang Qi Wang Meng Jian Boxuan Zhao Junchi Yan Chang Wen Chen 13 33 0 13 Jul 2020
RATT: Recurrent Attention to Transient Tasks for Continual Image Captioning Riccardo Del Chiaro Bartlomiej Twardowski Andrew D. Bagdanov Joost van de Weijer CLL VLM 22 40 0 13 Jul 2020
Multifunctional Meta-Optic Systems: Inversely Designed with Artificial Intelligence Dayu Zhu Zhaocheng Liu L. Raju Andrew S. Kim W. Cai 6 5 0 30 Jun 2020
Learning for Video Compression with Recurrent Auto-Encoder and Recurrent Probability Model Ren Yang Fabian Mentzer Luc Van Gool Radu Timofte 18 138 0 24 Jun 2020
Improving Image Captioning with Better Use of Captions Zhan Shi Xu Zhou Xipeng Qiu Xiao-Dan Zhu 30 122 0 21 Jun 2020
Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization Junting Pan Siyu Chen Zheng Shou Yu Liu Jing Shao Hongsheng Li 3DPC 19 150 0 14 Jun 2020
On Improving Temporal Consistency for Online Face Liveness Detection Xiang Xu Yuanjun Xiong Wei Xia CVBM 28 18 0 11 Jun 2020
VirTex: Learning Visual Representations from Textual Annotations Karan Desai Justin Johnson SSL VLM 30 432 0 11 Jun 2020
Visually Guided Sound Source Separation using Cascaded Opponent Filter Network Lingyu Zhu Esa Rahtu 22 23 0 04 Jun 2020
Towards Streaming Perception Mengtian Li Yu-xiong Wang Deva Ramanan 13 5 0 21 May 2020
Compressing Recurrent Neural Networks Using Hierarchical Tucker Tensor Decomposition Miao Yin Siyu Liao Xiao-Yang Liu Xiaodong Wang Bo Yuan 40 24 0 09 May 2020
Low-latency hand gesture recognition with a low resolution thermal imager Maarten Vandersteegen Wouter Reusen Kristof Van Beeck 19 15 0 24 Apr 2020
Recursive Social Behavior Graph for Trajectory Prediction Jianhua Sun Qinhong Jiang Cewu Lu GNN 16 158 0 22 Apr 2020
Knowledge Distillation for Action Anticipation via Label Smoothing Guglielmo Camporese Pasquale Coscia Antonino Furnari G. Farinella Lamberto Ballan EgoV 34 36 0 16 Apr 2020
Would Mega-scale Datasets Further Enhance Spatiotemporal 3D CNNs? Hirokatsu Kataoka Tenga Wakamiya Kensho Hara Y. Satoh 3DPC 23 87 0 10 Apr 2020
X3D: Expanding Architectures for Efficient Video Recognition Christoph Feichtenhofer 73 1,000 0 09 Apr 2020
TEA: Temporal Excitation and Aggregation for Action Recognition Yan-Ran Li Bin Ji Xintian Shi Jianguo Zhang Bin Kang Limin Wang ViT 6 439 0 03 Apr 2020
Knowing What, Where and When to Look: Efficient Video Action Modeling with Attention Juan-Manuel Perez-Rua Brais Martínez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang 42 19 0 02 Apr 2020
Temporal Accumulative Features for Sign Language Recognition A. Kındıroglu Ogulcan Özdemir L. Akarun SLR 8 18 0 02 Apr 2020
Explaining Motion Relevance for Activity Recognition in Video Deep Learning Models Liam Hiley Alun D. Preece Y. Hicks Supriyo Chakraborty Prudhvi K. Gurram Richard J. Tomsett FAtt 22 14 0 31 Mar 2020
Fashion Meets Computer Vision: A Survey Wen-Huang Cheng Sijie Song Chieh-Yun Chen S. Hidayati Jiaying Liu AI4TS 36 96 0 31 Mar 2020
Actor-Transformers for Group Activity Recognition Kirill Gavrilyuk Ryan Sanford Mehrsan Javan Cees G. M. Snoek ViT 19 178 0 28 Mar 2020
A Driver Fatigue Recognition Algorithm Based on Spatio-Temporal Feature Sequence Chen Zhang Xiaobo Lu Zhiliang Huang 3DH CVBM 16 7 0 18 Mar 2020
Multi-modal Dense Video Captioning Vladimir E. Iashin Esa Rahtu 22 164 0 17 Mar 2020