Title
Egocentric Video-Language Pretraining Kevin Qinghong Lin Alex Jinpeng Wang Mattia Soldan Michael Wray Rui Yan ... Hongfa Wang Dima Damen Guohao Li Wei Liu Mike Zheng Shou VLM EgoV 46 189 0 03 Jun 2022
Label-Efficient Online Continual Object Detection in Streaming Video Jay Zhangjie Wu David Junhao Zhang W. Hsu Mengmi Zhang Mike Zheng Shou CLL 12 16 0 01 Jun 2022
Multimodal Conversational AI: A Survey of Datasets and Approaches Anirudh S. Sundar Larry Heck 38 29 0 13 May 2022
Episodic Memory Question Answering Samyak Datta Sameer Dharur Vincent Cartillier Ruta Desai Mukul Khanna Dhruv Batra Devi Parikh EgoV 16 31 0 03 May 2022
Saliency in Augmented Reality Huiyu Duan Wei Shen Xiongkuo Min Danyang Tu Jing Li Guangtao Zhai 19 31 0 18 Apr 2022
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language Andy Zeng Maria Attarian Brian Ichter K. Choromanski Adrian S. Wong ... Michael S. Ryoo Vikas Sindhwani Johnny Lee Vincent Vanhoucke Peter R. Florence ReLM LRM 45 572 0 01 Apr 2022
Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities Fadime Sener Dibyadip Chatterjee Daniel Shelepov Kun He Dipika Singhania Robert Y. Wang Angela Yao VGen 33 205 0 28 Mar 2022
How Severe is Benchmark-Sensitivity in Video Self-Supervised Learning? Fida Mohammad Thoker Hazel Doughty Piyush Bagad Cees G. M. Snoek SSL 35 19 0 27 Mar 2022
Sylph: A Hypernetwork Framework for Incremental Few-shot Object Detection Li Yin Juan-Manuel Perez-Rua Kevin J Liang ObjD 25 35 0 25 Mar 2022
Egocentric Prediction of Action Target in 3D Yiming Li Ziang Cao Andrew Liang Benjamin Liang Luoyao Chen Hang Zhao Chen Feng EgoV 13 17 0 24 Mar 2022
R3M: A Universal Visual Representation for Robot Manipulation Suraj Nair Aravind Rajeswaran Vikash Kumar Chelsea Finn Abhi Gupta LM&Ro 19 548 0 23 Mar 2022
Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos Tomávs Souvcek Jean-Baptiste Alayrac Antoine Miech Ivan Laptev Josef Sivic 21 32 0 22 Mar 2022
Gate-Shift-Fuse for Video Action Recognition Swathikiran Sudhakaran Sergio Escalera Oswald Lanz 22 22 0 16 Mar 2022
Domain Adaptive Hand Keypoint and Pixel Localization in the Wild Takehiko Ohkawa Yu-Jhe Li Qichen Fu Rosuke Furuta Kris M. Kitani Yoichi Sato 3DH 35 20 0 16 Mar 2022
All in One: Exploring Unified Video-Language Pre-training Alex Jinpeng Wang Yixiao Ge Rui Yan Yuying Ge Xudong Lin Guanyu Cai Jianping Wu Ying Shan Xiaohu Qie Mike Zheng Shou 36 200 0 14 Mar 2022
Masked Visual Pre-training for Motor Control Tete Xiao Ilija Radosavovic Trevor Darrell Jitendra Malik SSL 34 242 0 11 Mar 2022
AssistQ: Affordance-centric Question-driven Task Completion for Egocentric Assistant B. Wong Joya Chen You Wu Stan Weixian Lei Dongxing Mao Difei Gao Mike Zheng Shou EgoV 35 27 0 08 Mar 2022
Universal Prototype Transport for Zero-Shot Action Recognition and Localization Pascal Mettes 14 5 0 08 Mar 2022
Didn't see that coming: a survey on non-verbal social human behavior forecasting Germán Barquero Johnny Núnez Sergio Escalera Zhen Xu Wei-Wei Tu Isabelle M Guyon Cristina Palmero AI4TS 34 21 0 04 Mar 2022
HAA4D: Few-Shot Human Atomic Action Recognition via 3D Spatio-Temporal Skeletal Alignment Mu-Ruei Tseng Abhishek Gupta Chi-Keung Tang Yu-Wing Tai 3DH 25 7 0 15 Feb 2022
OWL (Observe, Watch, Listen): Audiovisual Temporal Context for Localizing Actions in Egocentric Videos Merey Ramazanova Victor Escorcia Fabian Caba Heilbron Chen Zhao Guohao Li 28 3 0 10 Feb 2022
EgoBody: Human Body Shape and Motion of Interacting People from Head-Mounted Devices Siwei Zhang Qianli Ma Yan Zhang Zhiyin Qian Taein Kwon Marc Pollefeys Federica Bogo Siyu Tang 32 92 0 14 Dec 2021
E $^2$ (GO)MOTION: Motion Augmented Event Stream for Egocentric Action Recognition Chiara Plizzari M. Planamente Gabriele Goletto Marco Cannici Emanuele Gusso Matteo Matteucci Barbara Caputo EgoV 30 56 0 07 Dec 2021
AVA-AVD: Audio-Visual Speaker Diarization in the Wild Eric Z. Xu Zeyang Song Satoshi Tsutsui C. Feng Mang Ye Mike Zheng Shou VGen 21 42 0 29 Nov 2021
Sustainable AI: Environmental Implications, Challenges and Opportunities Carole-Jean Wu Ramya Raghavendra Udit Gupta Bilge Acun Newsha Ardalani ... Maximilian Balandat Joe Spisak R. Jain Michael G. Rabbat K. Hazelwood 47 381 0 30 Oct 2021
NeuralDiff: Segmenting 3D objects that move in egocentric videos Vadim Tschernezki Diane Larlus Andrea Vedaldi VOS 32 57 0 19 Oct 2021
Shaping embodied agent behavior with activity-context priors from egocentric video Tushar Nagarajan Kristen Grauman EgoV LM&Ro 43 13 0 14 Oct 2021
How much human-like visual experience do current self-supervised learning algorithms need in order to achieve human-level object recognition? Emin Orhan OOD 35 4 0 23 Sep 2021
SORNet: Spatial Object-Centric Representations for Sequential Manipulation Wentao Yuan Chris Paxton Karthik Desingh Dieter Fox 3DPC 147 72 0 08 Sep 2021
Egocentric Activity Recognition and Localization on a 3D Map Miao Liu Lingni Ma Kiran Somasundaram Yin Li Kristen Grauman James M. Rehg Chao Li EgoV 24 19 0 20 May 2021
A Review of Speaker Diarization: Recent Advances with Deep Learning Tae Jin Park Naoyuki Kanda Dimitrios Dimitriadis Kyu Jeong Han Shinji Watanabe Shrikanth Narayanan VLM 274 327 0 24 Jan 2021
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 196 198 0 08 Jan 2021
Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: theory, implementation and analysis on standard tasks Federico Landini Jan Profant Mireia Díez L. Burget 216 199 0 29 Dec 2020
Human Action Recognition from Various Data Modalities: A Review Zehua Sun Qiuhong Ke Hossein Rahmani Mohammed Bennamoun Gang Wang Jun Liu MU 53 504 0 22 Dec 2020
4D Human Body Capture from Egocentric Video via 3D Scene Grounding Miao Liu Dexin Yang Yan Zhang Zhaopeng Cui James M. Rehg Siyu Tang 24 38 0 26 Nov 2020
Detecting Attended Visual Targets in Video Eunji Chong Yongxin Wang Nataniel Ruiz James M. Rehg 199 112 0 05 Mar 2020
Audiovisual SlowFast Networks for Video Recognition Fanyi Xiao Yong Jae Lee Kristen Grauman Jitendra Malik Christoph Feichtenhofer 197 206 0 23 Jan 2020
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 245 2,233 0 14 Jun 2018
BSN: Boundary Sensitive Network for Temporal Action Proposal Generation Tianwei Lin Xu Zhao Haisheng Su Chongjing Wang Ming Yang 139 700 0 08 Jun 2018
TrackingNet: A Large-Scale Dataset and Benchmark for Object Tracking in the Wild Matthias Muller Adel Bibi Silvio Giancola Salman Al-Subaihi Guohao Li 226 789 0 28 Mar 2018
Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting Xingjian Shi Zhourong Chen Hao Wang Dit-Yan Yeung W. Wong W. Woo 233 7,904 0 13 Jun 2015