v1v2 (latest)

What Would You Expect? Anticipating Egocentric Actions with Rolling-Unrolling LSTMs and Modality Attention

22 May 2019

Antonino Furnari

G. Farinella

EgoV

ArXiv (abs)PDF HTML Github (132★)

Papers citing "What Would You Expect? Anticipating Egocentric Actions with Rolling-Unrolling LSTMs and Modality Attention"

29 / 29 papers shown

Title
Vinci: A Real-time Embodied Smart Assistant based on Egocentric Vision-Language Model Yuanmin Huang Jilan Xu Baoqi Pei Yuping He Guo Chen ... Kunpeng Li C. Yuan Yidan Wang Yu Qiao L. Wang 122 6 0 31 Dec 2024
Next-Active-Object prediction from Egocentric Videos Antonino Furnari Sebastiano Battiato Kristen Grauman G. Farinella EgoV 52 97 0 10 Apr 2019
LSTA: Long Short-Term Attention for Egocentric Action Recognition Swathikiran Sudhakaran Sergio Escalera Oswald Lanz EgoV 57 143 0 26 Nov 2018
Attention is All We Need: Nailing Down Object-centric Attention for Egocentric Activity Recognition Swathikiran Sudhakaran Oswald Lanz EgoV 48 82 0 31 Jul 2018
Adding Attentiveness to the Neurons in Recurrent Neural Networks Pengfei Zhang Jianru Xue Cuiling Lan Wenjun Zeng Zhanning Gao Nanning Zheng 61 96 0 12 Jul 2018
Scaling Egocentric Vision: The EPIC-KITCHENS Dataset Dima Damen Hazel Doughty G. Farinella Sanja Fidler Antonino Furnari ... Davide Moltisanti Jonathan Munro Toby Perrett Will Price Michael Wray EgoV 123 1,030 0 08 Apr 2018
When will you do what? - Anticipating Temporal Occurrences of Activities Yazan Abu Farha Alexander Richard Juergen Gall 65 191 0 03 Apr 2018
Temporal Relational Reasoning in Videos Bolei Zhou A. Andonian Aude Oliva Antonio Torralba NAI 96 1,039 0 22 Nov 2017
Visual Forecasting by Imitating Dynamics in Natural Sequences Kuo-Hao Zeng Bokui (William) Shen De-An Huang Min Sun Juan Carlos Niebles AI4TS 55 61 0 19 Aug 2017
Choosing Smartly: Adaptive Multimodal Fusion for Object Detection in Changing Environments Oier Mees Andreas Eitel Wolfram Burgard 57 104 0 18 Jul 2017
RED: Reinforced Encoder-Decoder Networks for Action Anticipation J. Gao Zhenheng Yang Ram Nevatia 89 196 0 16 Jul 2017
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 235 8,019 0 22 May 2017
Forecasting Hands and Objects in Future Frames Chenyou Fan Jangwon Lee Michael S. Ryoo 3DH 41 14 0 20 May 2017
Am I Done? Predicting Action Progress in Videos Federico Becattini Tiberio Uricchio Lorenzo Seidenari Lamberto Ballan A. Bimbo 95 34 0 04 May 2017
Encouraging LSTMs to Anticipate Actions Very Early Mohammad Sadegh Ali Akbarian F. Saleh Mathieu Salzmann Basura Fernando L. Petersson Lars Andersson 63 170 0 21 Mar 2017
First-Person Activity Forecasting with Online Inverse Reinforcement Learning Nicholas Rhinehart Kris Kitani EgoV 43 141 0 22 Dec 2016
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Limin Wang Yuanjun Xiong Zhe Wang Yu Qiao Dahua Lin Xiaoou Tang Luc Van Gool ViT 105 3,835 0 02 Aug 2016
Going Deeper into First-Person Activity Recognition Minghuang Ma Haoqi Fan Kris Kitani EgoV 58 306 0 12 May 2016
Convolutional Two-Stream Network Fusion for Video Action Recognition Christoph Feichtenhofer A. Pinz Andrew Zisserman 163 2,611 0 22 Apr 2016
Online Action Detection R. D. Geest E. Gavves Amir Ghodrati Zhenyang Li Cees G. M. Snoek Tinne Tuytelaars OffRL 60 155 0 21 Apr 2016
Trajectory Aligned Features For First Person Action Recognition Suriya Singh Chetan Arora C. V. Jawahar EgoV 39 54 0 07 Apr 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.2K 194,020 0 10 Dec 2015
Recurrent Neural Networks for Driver Activity Anticipation via Sensory-Fusion Architecture Ashesh Jain Avi Singh H. Koppula Shane Soh Ashutosh Saxena 65 256 0 16 Sep 2015
Fast R-CNN Ross B. Girshick ObjD 306 25,059 0 30 Apr 2015
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift Sergey Ioffe Christian Szegedy OOD 463 43,305 0 11 Feb 2015
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Ke Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhutdinov R. Zemel Yoshua Bengio DiffM 346 10,070 0 10 Feb 2015
Pooled Motion Features for First-Person Videos Michael S. Ryoo B. Rothrock Larry Matthies 77 182 0 19 Dec 2014
Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau Kyunghyun Cho Yoshua Bengio AIMat 560 27,311 0 01 Sep 2014
Two-Stream Convolutional Networks for Action Recognition in Videos Karen Simonyan Andrew Zisserman 247 7,535 0 09 Jun 2014