Title
The Role of Video Generation in Enhancing Data-Limited Action Understanding Wei Li Dezhao Luo Dongbao Yang Zhenhang Li Weiping Wang Yu Zhou DiffM VGen 138 0 0 26 May 2025
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation Hanzhi Chen Boyang Sun Anran Zhang Marc Pollefeys Stefan Leutenegger LM&Ro 91 0 0 10 Mar 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 109 2 0 10 Jan 2025
Vinci: A Real-time Embodied Smart Assistant based on Egocentric Vision-Language Model Yuanmin Huang Jilan Xu Baoqi Pei Yuping He Guo Chen ... Kunpeng Li C. Yuan Yidan Wang Yu Qiao L. Wang 102 5 0 31 Dec 2024
RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation Kun Wu Chengkai Hou Jiaming Liu Zhengping Che Xiaozhu Ju ... Zhenyu Wang Pengju An Siyuan Qian Shanghang Zhang Jian Tang LM&Ro 161 19 0 18 Dec 2024
The Sound of Water: Inferring Physical Properties from Pouring Liquids Piyush Bagad Makarand Tapaswi Cees G. M. Snoek Andrew Zisserman 112 0 0 18 Nov 2024
Latent Action Pretraining from Videos Seonghyeon Ye Joel Jang Byeongguk Jeon Sejune Joo Jianwei Yang ... Kimin Lee J. Gao Luke Zettlemoyer Dieter Fox Minjoon Seo 56 34 0 15 Oct 2024
Mamba Fusion: Learning Actions Through Questioning Zhikang Dong Apoorva Beedu Jason Sheinkopf Irfan Essa Mamba 79 2 0 17 Sep 2024
Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation Tz-Ying Wu Kyle Min Subarna Tripathi Nuno Vasconcelos EgoV 104 0 0 28 Jul 2024
Spatial Cognition from Egocentric Video: Out of Sight, Not Out of Mind Chiara Plizzari Shubham Goel Toby Perrett Jacob Chalk Angjoo Kanazawa Dima Damen 54 10 0 07 Apr 2024
SADA: Semantic adversarial unsupervised domain adaptation for Temporal Action Localization David Pujol-Perich Albert Clapés Sergio Escalera 64 0 0 20 Dec 2023
Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding in Novel Domains Rohan Myer Krishnan Zitian Tang Zhiqiu Yu Chen Sun 84 1 0 30 Nov 2023
LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision Jiani Huang Ziyang Li Mayur Naik Ser-Nam Lim 95 3 0 15 Apr 2023
Team VI-I2R Technical Report on EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2021 Yi Cheng Fen Fang Ying Sun EgoV 25 5 0 03 Jun 2022
PoliTO-IIT Submission to the EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition Chiara Plizzari M. Planamente Emanuele Alberti Barbara Caputo 91 2 0 01 Jul 2021
EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2021: Team M3EM Technical Report Lijin Yang Yifei Huang Yusuke Sugano Yoichi Sato 23 5 0 18 Jun 2021
Cross-Domain First Person Audio-Visual Action Recognition through Relative Norm Alignment M. Planamente Chiara Plizzari Emanuele Alberti Barbara Caputo EgoV 101 12 0 03 Jun 2021
Understanding Human Hands in Contact at Internet Scale Dandan Shan Jiaqi Geng Michelle Shu David Fouhey 65 320 0 11 Jun 2020
Detection and Retrieval of Out-of-Distribution Objects in Semantic Segmentation Philipp Oberdiek Matthias Rottmann G. Fink 38 30 0 14 May 2020
Rolling-Unrolling LSTMs for Action Anticipation from First-Person Video Antonino Furnari G. Farinella EgoV 31 140 0 04 May 2020
Multi-Modal Domain Adaptation for Fine-Grained Action Recognition Jonathan Munro Dima Damen EgoV 37 192 0 27 Jan 2020
Adversarial Cross-Domain Action Recognition with Co-Attention Boxiao Pan Zhangjie Cao Ehsan Adeli Juan Carlos Niebles ViT 44 104 0 22 Dec 2019
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 231 42,038 0 03 Dec 2019
Progressive Domain Adaptation for Object Detection Han-Kai Hsu Chun-Han Yao Yi-Hsuan Tsai Wei-Chih Hung Hung-Yu Tseng M. Singh Ming-Hsuan Yang ObjD 80 307 0 24 Oct 2019
A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark Xiaohua Zhai J. Puigcerver Alexander Kolesnikov P. Ruyssen C. Riquelme ... Michael Tschannen Marcin Michalski Olivier Bousquet Sylvain Gelly N. Houlsby SSL 60 432 0 01 Oct 2019
Weakly Supervised Energy-Based Learning for Action Segmentation Jun Li Peng Lei S. Todorovic 94 90 0 28 Sep 2019
Open Compound Domain Adaptation Ziwei Liu Zhongqi Miao Xingang Pan Xiaohang Zhan Dahua Lin Stella X. Yu Boqing Gong 63 131 0 08 Sep 2019
EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition Evangelos Kazakos Arsha Nagrani Andrew Zisserman Dima Damen EgoV 43 332 0 22 Aug 2019
3C-Net: Category Count and Center Loss for Weakly-Supervised Action Localization Sanath Narayan Hisham Cholakkal Fahad Shahbaz Khan Ling Shao 3DPC 30 153 0 22 Aug 2019
Weakly-supervised Action Localization with Background Modeling P. Nguyen Deva Ramanan Charless C. Fowlkes SSL WSOL 86 158 0 19 Aug 2019
Fine-Grained Action Retrieval Through Multiple Parts-of-Speech Embeddings Michael Wray Diane Larlus G. Csurka Dima Damen 73 152 0 09 Aug 2019
Temporal Attentive Alignment for Large-Scale Video Domain Adaptation Min-Hung Chen Z. Kira G. Al-Regib Jaekwon Yoo Ruxin Chen Jian Zheng TTA AI4TS 41 179 0 30 Jul 2019
BMN: Boundary-Matching Network for Temporal Action Proposal Generation Tianwei Lin Xiao-Chang Liu Xin Li Errui Ding Shilei Wen 124 599 0 23 Jul 2019
A Short Note on the Kinetics-700 Human Action Dataset João Carreira Eric Noland Chloe Hillier Andrew Zisserman 50 446 0 15 Jul 2019
HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev Josef Sivic VGen 87 1,186 0 07 Jun 2019
Does computer vision matter for action? Brady Zhou Philipp Krahenbuhl V. Koltun LM&Ro 55 107 0 30 May 2019
Efficient Object Annotation via Speaking and Pointing Michael Gygli V. Ferrari ObjD VLM 43 17 0 25 May 2019
What Would You Expect? Anticipating Egocentric Actions with Rolling-Unrolling LSTMs and Modality Attention Antonino Furnari G. Farinella EgoV 97 173 0 22 May 2019
WoodScape: A multi-task, multi-camera fisheye dataset for autonomous driving S. Yogamani Ciarán Hughes Jonathan Horgan Ganesh Sistu P. Varley ... Sumanth Chennupati Sanjaya Nayak Saquib Mansoor Xavier Perroton P. Pérez HAI 46 263 0 04 May 2019
Next-Active-Object prediction from Egocentric Videos Antonino Furnari Sebastiano Battiato Kristen Grauman G. Farinella EgoV 35 96 0 10 Apr 2019
Action Recognition from Single Timestamp Supervision in Untrimmed Videos Davide Moltisanti Sanja Fidler Dima Damen 51 61 0 09 Apr 2019
nuScenes: A multimodal dataset for autonomous driving Holger Caesar Varun Bankiti Alex H. Lang Sourabh Vora Venice Erin Liong Qiang Xu Anush Krishnan Yuxin Pan G. Baldan Oscar Beijbom 3DPC 231 5,653 0 26 Mar 2019
D3TW: Discriminative Differentiable Dynamic Time Warping for Weakly Supervised Action Alignment and Segmentation C. Chang De-An Huang Yanan Sui Li Fei-Fei Juan Carlos Niebles 88 156 0 09 Jan 2019
AVA-ActiveSpeaker: An Audio-Visual Dataset for Active Speaker Detection Joseph Roth Sourish Chaudhuri Ondˇrej Klejch Radhika Marvin Andrew C. Gallagher ... S. Ramaswamy Arkadiusz Stopczynski Cordelia Schmid Zhonghua Xi C. Pantofaru 37 144 0 05 Jan 2019
Grounded Video Description Luowei Zhou Yannis Kalantidis Xinlei Chen Jason J. Corso Marcus Rohrbach 74 192 0 17 Dec 2018
SlowFast Networks for Video Recognition Christoph Feichtenhofer Haoqi Fan Jitendra Malik Kaiming He 139 3,244 0 10 Dec 2018
Moment Matching for Multi-Source Domain Adaptation Xingchao Peng Qinxun Bai Xide Xia Zijun Huang Kate Saenko Bo Wang OOD 109 1,769 0 04 Dec 2018
Rethinking ImageNet Pre-training Kaiming He Ross B. Girshick Piotr Dollár VLM SSeg 98 1,081 0 21 Nov 2018
TSM: Temporal Shift Module for Efficient Video Understanding Ji Lin Chuang Gan Song Han 73 1,677 0 20 Nov 2018
Bayesian Prediction of Future Street Scenes using Synthetic Likelihoods Apratim Bhattacharyya Mario Fritz Bernt Schiele UQCV 55 46 0 01 Oct 2018