Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities

28 March 2022

Angela Yao

Papers citing "Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities"

50 / 132 papers shown

Title
NL2Contact: Natural Language Guided 3D Hand-Object Contact Modeling with Diffusion Model Zhongqun Zhang Hengfei Wang Ziwei Yu Yihua Cheng Angela Yao Hyung Jin Chang DiffM 41 5 0 17 Jul 2024
Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation Olga Zatsarynna Emad Bahrami Yazan Abu Farha Gianpiero Francesca Juergen Gall 43 1 0 16 Jul 2024
Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition Mingfang Zhang Yifei Huang Ruicong Liu Yoichi Sato 51 4 0 09 Jul 2024
Open-Event Procedure Planning in Instructional Videos Yilu Wu Hanlin Wang Jing Wang Limin Wang 54 0 0 06 Jul 2024
Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild Lingni Ma Yuting Ye Fangzhou Hong Vladimir Guzov Yifeng Jiang ... C. Karen Liu Ziwei Liu Jakob Engel R. D. Nardi Richard Newcombe 32 21 0 14 Jun 2024
A Survey of Video Datasets for Grounded Event Understanding Kate Sanders Benjamin Van Durme 40 4 0 14 Jun 2024
EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding Yuan-Ming Li Wei-Jin Huang An-Lan Wang Ling-an Zeng Jing-Ke Meng Wei-Shi Zheng 37 12 0 13 Jun 2024
Eyes Wide Unshut: Unsupervised Mistake Detection in Egocentric Procedural Video by Detecting Unpredictable Gaze Michele Mazzamuto Antonino Furnari G. Farinella EgoV 34 0 0 12 Jun 2024
Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition Masashi Hatano Ryo Hachiuma Ryoske Fujii Hideo Saito EgoV 42 4 0 30 May 2024
Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis Basile Van Hoorick Rundi Wu Ege Ozguroglu Kyle Sargent Ruoshi Liu P. Tokmakov Achal Dave Changxi Zheng Carl Vondrick DiffM VGen 58 29 0 23 May 2024
SIGMA: An Open-Source Interactive System for Mixed-Reality Task Assistance Research D. Bohus Sean Andrist Nick Saw Ann Paradiso Ishani Chakraborty Mahdi Rad 38 9 0 16 May 2024
Long-Term Human Trajectory Prediction using 3D Dynamic Scene Graphs Nicolas Gorlo Lukas Schmid Luca Carlone 32 7 0 01 May 2024
Step Differences in Instructional Video Tushar Nagarajan Lorenzo Torresani VGen 32 5 0 24 Apr 2024
HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision Siddhant Bansal Michael Wray Dima Damen 41 3 0 15 Apr 2024
O-TALC: Steps Towards Combating Oversegmentation within Online Action Segmentation Matthew Kent Myers Nick Wright A. Mcgough Nicholas Martin 29 1 0 10 Apr 2024
SemGrasp: Semantic Grasp Generation via Language Aligned Discretization Kailin Li Jingbo Wang Lixin Yang Cewu Lu Bo Dai 46 16 0 04 Apr 2024
PREGO: online mistake detection in PRocedural EGOcentric videos Alessandro Flaborea Guido Maria DÁmely di Melendugno Leonardo Plini Luca Scofano Edoardo De Matteis Antonino Furnari G. Farinella Fabio Galasso EgoV 56 11 0 02 Apr 2024
X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization Anna Kukleva Fadime Sener Edoardo Remelli Bugra Tekin Eric Sauser Bernt Schiele Shugao Ma VLM EgoV 45 1 0 28 Mar 2024
Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects Zicong Fan Takehiko Ohkawa Linlin Yang Nie Lin Zhishan Zhou ... Kun He Yoichi Sato Otmar Hilliges Hyung Jin Chang Angela Yao 49 14 0 25 Mar 2024
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World Yifei Huang Guo Chen Jilan Xu Mingfang Zhang Lijin Yang ... Hongjie Zhang Lu Dong Yali Wang Limin Wang Yu Qiao EgoV 66 38 0 24 Mar 2024
On the Utility of 3D Hand Poses for Action Recognition Md Salman Shamil Dibyadip Chatterjee Fadime Sener Shugao Ma Angela Yao 40 5 0 14 Mar 2024
ThermoHands: A Benchmark for 3D Hand Pose Estimation from Egocentric Thermal Images Fangqiang Ding Yunzhou Zhu Xiangyu Wen Gaowen Liu Chris Xiaoxuan Lu 42 2 0 14 Mar 2024
Put Myself in Your Shoes: Lifting the Egocentric Perspective from Exocentric Videos Mi Luo Zihui Xue Alex Dimakis Kristen Grauman EgoV DiffM 49 12 0 11 Mar 2024
POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object Interaction in the Multi-View World Boshen Xu Sipeng Zheng Qin Jin 44 7 0 09 Mar 2024
A Backpack Full of Skills: Egocentric Video Understanding with Diverse Task Perspectives Simone Alberto Peirone Francesca Pistilli A. Alliegro Giuseppe Averta EgoV 32 4 0 05 Mar 2024
Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos Kumaranage Ravindu Yasas Nagasinghe Honglu Zhou Malitha Gunawardhana Martin Renqiang Min Daniel Harari Muhammad Haris Khan 40 7 0 05 Mar 2024
ADL4D: Towards A Contextually Rich Dataset for 4D Activities of Daily Living Marsil Zakour Partha Partim Nath Ludwig Lohmer Emre Faik Gökçe Martin Piccolrovazzi Constantin Patsch Yuankai Wu Rahul P. Chaudhari Eckehard G. Steinbach 31 1 0 27 Feb 2024
Aria Everyday Activities Dataset Zhaoyang Lv Nickolas Charron Pierre Moulon Alexander Gamino Cheng Peng ... Yuyang Zou Richard Newcombe Jakob Julian Engel Xiaqing Pan Carl Ren 29 10 0 20 Feb 2024
Video ReCap: Recursive Captioning of Hour-Long Videos Md. Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius VGen VLM 35 44 0 20 Feb 2024
Learning Mutual Excitation for Hand-to-Hand and Human-to-Human Interaction Recognition Mengyuan Liu Cheng Chen Songtao Wu Fanyang Meng Hong Liu 35 2 0 04 Feb 2024
FineBio: A Fine-Grained Video Dataset of Biological Experiments with Hierarchical Annotation Takuma Yagi Misaki Ohashi Yifei Huang Ryosuke Furuta Shungo Adachi Toutai Mitsuyama Yoichi Sato 23 5 0 01 Feb 2024
ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object Interactions Jeonghwan Kim Jisoo Kim Jeonghyeon Na Hanbyul Joo 50 20 0 18 Jan 2024
TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding Yun-Hai Liu Haolin Yang Xu Si Ling Liu Zipeng Li Yuxiang Zhang Yebin Liu Li Yi 59 22 0 16 Jan 2024
Retrieval-Augmented Egocentric Video Captioning Jilan Xu Yifei Huang Junlin Hou Guo Chen Yue Zhang Rui Feng Weidi Xie EgoV 51 29 0 01 Jan 2024
Get a Grip: Reconstructing Hand-Object Stable Grasps in Egocentric Videos Zhifan Zhu Dima Damen 39 7 0 25 Dec 2023
CaptainCook4D: A dataset for understanding errors in procedural activities Rohith Peddi Shivvrat Arya B. Challa Likhitha Pallapothula Akshay Vyas ... Vasundhara Komaragiri Eric D. Ragan Nicholas Ruozzi Yu Xiang Vibhav Gogate 60 8 0 22 Dec 2023
Collaborative Weakly Supervised Video Correlation Learning for Procedure-Aware Instructional Video Analysis Tianyao He Huabin Liu Yuxi Li Xiao Ma Cheng Zhong Yang Zhang Weiyao Lin 28 5 0 18 Dec 2023
Reconstructing Hands in 3D with Transformers Georgios Pavlakos Dandan Shan Ilija Radosavovic Angjoo Kanazawa David Fouhey Jitendra Malik 3DH 27 101 0 08 Dec 2023
HandDiffuse: Generative Controllers for Two-Hand Interactions via Diffusion Models Pei-Ying Lin Sihang Xu Hongdi Yang Yiran Liu Xin Chen Jingya Wang Jingyi Yu Lan Xu 40 9 0 08 Dec 2023
Are Synthetic Data Useful for Egocentric Hand-Object Interaction Detection? Rosario Leonardi Antonino Furnari Francesco Ragusa G. Farinella EgoV 18 3 0 05 Dec 2023
Synchronization is All You Need: Exocentric-to-Egocentric Transfer for Temporal Action Segmentation with Unlabeled Synchronized Video Pairs Camillo Quattrocchi Antonino Furnari Daniele Di Mauro M. Giuffrida G. Farinella 26 8 0 05 Dec 2023
Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding in Novel Domains Rohan Myer Krishnan Zitian Tang Zhiqiu Yu Chen Sun 56 1 0 30 Nov 2023
Generative Hierarchical Temporal Transformer for Hand Action Recognition and Motion Prediction Yilin Wen Hao Pan Takehiko Ohkawa Lei Yang Jia Pan Yoichi Sato Taku Komura Wenping Wang 44 0 0 29 Nov 2023
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos Takehiko Ohkawa Takuma Yagi Taichi Nishimura Ryosuke Furuta Atsushi Hashimoto Yoshitaka Ushiku Yoichi Sato EgoV 49 8 0 28 Nov 2023
Can Foundation Models Watch, Talk and Guide You Step by Step to Make a Cake? Yuwei Bao Keunwoo Peter Yu Yichi Zhang Shane Storks Itamar Bar-Yossef Alexander De La Iglesia Megan Su Xiao Lin Zheng Joyce Chai 44 9 0 01 Nov 2023
ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab Jieming Cui Ziren Gong Baoxiong Jia Siyuan Huang Zilong Zheng Jianzhu Ma Yixin Zhu 42 3 0 01 Nov 2023
A Dataset of Relighted 3D Interacting Hands Gyeongsik Moon Shunsuke Saito Weipeng Xu Rohan P. Joshi Julia Buffalini ... Tomas Simon Bo Peng Shubham Garg Kevyn McPhail Takaaki Shiratori 42 27 0 26 Oct 2023
IndustReal: A Dataset for Procedure Step Recognition Handling Execution Errors in Egocentric Videos in an Industrial-Like Setting Tim J. Schoonbeek Tim Houben H. Onvlee Peter H. N. de With Fons van der Sommen 52 23 0 26 Oct 2023
Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video Shashanka Venkataramanan Mamshad Nayeem Rizve João Carreira Yuki M. Asano Yannis Avrithis SSL 31 18 0 12 Oct 2023
Graph learning in robotics: a survey Francesca Pistilli Giuseppe Averta AI4CE GNN 29 7 0 06 Oct 2023