Title
ActionVOS: Actions as Prompts for Video Object Segmentation Liangyang Ouyang Ruicong Liu Yifei Huang Ryosuke Furuta Yoichi Sato VOS 45 2 0 10 Jul 2024
Video In-context Learning: Autoregressive Transformers are Zero-Shot Video Imitators Wentao Zhang Junliang Guo Tianyu He Li Zhao Linli Xu Jiang Bian 47 3 0 10 Jul 2024
Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition Mingfang Zhang Yifei Huang Ruicong Liu Yoichi Sato 51 4 0 09 Jul 2024
Short-term Object Interaction Anticipation with Disentangled Object Detection @ Ego4D Short Term Object Interaction Anticipation Challenge Hyunjin Cho Dong un Kang Se Young Chun 19 0 0 08 Jul 2024
CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation Yuejiao Su Yi Wang Lap-Pui Chau 65 1 0 08 Jul 2024
RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation Yuxuan Kuang Junjie Ye Haoran Geng Jiageng Mao Congyue Deng Leonidas J. Guibas He Wang Yue Wang LM&Ro 48 21 0 05 Jul 2024
ZARRIO @ Ego4D Short Term Object Interaction Anticipation Challenge: Leveraging Affordances and Attention-based models for STA Lorenzo Mur-Labadia Ruben Martinez-Cantin J. Guerrero-Campo G. Farinella 28 0 0 05 Jul 2024
QueryMamba: A Mamba-Based Encoder-Decoder Architecture with a Statistical Verb-Noun Interaction Module for Video Action Forecasting @ Ego4D Long-Term Action Anticipation Challenge 2024 Zeyun Zhong Manuel Martin Frederik Diederichs Juergen Beyerer 37 4 0 04 Jul 2024
DyFADet: Dynamic Feature Aggregation for Temporal Action Detection Le Yang Ziwei Zheng Yizeng Han Hao-Ran Cheng Shiji Song Gao Huang Fan Li 58 8 0 03 Jul 2024
Open-TeleVision: Teleoperation with Immersive Active Visual Feedback Xuxin Cheng Jialong Li Shiqi Yang Ge Yang Xiaolong Wang 61 96 0 01 Jul 2024
Tarsier: Recipes for Training and Evaluating Large Video Description Models Jiawei Wang Liping Yuan Yuchen Zhang 44 52 0 30 Jun 2024
EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting Daiwei Zhang Gengyan Li Jiajie Li Mickael Bressieux Otmar Hilliges Marc Pollefeys Luc Van Gool Xi Wang 39 9 0 28 Jun 2024
ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos Jr-Jen Chen Yu-Chien Liao Hsi-Che Lin Yu-Chu Yu Yen-Chun Chen Yu-Chiang Frank Wang 37 10 0 27 Jun 2024
EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation Baoqi Pei Guo Chen Jilan Xu Yuping He Yicheng Liu ... Yifei Huang Yali Wang Tong Lu Limin Wang Yu Qiao EgoV 45 14 0 26 Jun 2024
3D-MVP: 3D Multiview Pretraining for Robotic Manipulation Shengyi Qian Kaichun Mo Valts Blukis David Fouhey Dieter Fox Ankit Goyal 42 2 0 26 Jun 2024
ObjectNLQ @ Ego4D Episodic Memory Challenge 2024 Yisen Feng Haoyu Zhang Yuquan Xie Zaijing Li Meng Liu Liqiang Nie 23 3 0 22 Jun 2024
HCQA @ Ego4D EgoSchema Challenge 2024 Haoyu Zhang Yuquan Xie Yisen Feng Zaijing Li Meng Liu Liqiang Nie 43 2 0 22 Jun 2024
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models Guangzhi Sun Wenyi Yu Changli Tang Xianzhao Chen Tian Tan Wei Li Lu Lu Zejun Ma Yuxuan Wang Chao Zhang 45 22 0 22 Jun 2024
VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought Gabriel H. Sarch Lawrence Jang Michael J. Tarr William W. Cohen Kenneth Marino Katerina Fragkiadaki LLMAG 50 0 0 20 Jun 2024
Two-Stage Depth Enhanced Learning with Obstacle Map For Object Navigation Yanwei Zheng Shaopu Feng Bowen Huang Changrui Li Xiao Zhang Dongxiao Yu 36 0 0 20 Jun 2024
Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation Jiaming Zhou Teli Ma Kun-Yu Lin Ronghe Qiu Zifan Wang Junwei Liang 52 4 0 20 Jun 2024
AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding Alessandro Suglia Claudio Greco Katie Baker Jose L. Part Ioannis Papaioannou Arash Eshghi Ioannis Konstas Oliver Lemon 33 8 0 19 Jun 2024
ViLCo-Bench: VIdeo Language COntinual learning Benchmark Tianqi Tang Shohreh Deldari Hao Xue Celso De Melo Flora D. Salim CLL 34 2 0 19 Jun 2024
Symmetric Multi-Similarity Loss for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2024 Xiaoqi Wang Yi Wang Lap-Pui Chau 36 0 0 18 Jun 2024
PCIE_LAM Solution for Ego4D Looking At Me Challenge Kanokphan Lertniphonphan Jun Xie Yaqing Meng Shijing Wang Feng Chen Zhepeng Wang 37 0 0 18 Jun 2024
VideoLLM-online: Online Video Large Language Model for Streaming Video Joya Chen Zhaoyang Lv Shiwei Wu Kevin Qinghong Lin Chenan Song Difei Gao Jia-Wei Liu Ziteng Gao Dongxing Mao Mike Zheng Shou MLLM MoMe 45 49 0 17 Jun 2024
A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping Abhi Kamboj Katherine Driggs-Campbell 30 0 0 17 Jun 2024
HumanPlus: Humanoid Shadowing and Imitation from Humans Zipeng Fu Qingqing Zhao Qi Wu Gordon Wetzstein Chelsea Finn SyDa 30 88 0 15 Jun 2024
The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences Bria Long Violet Xiang Stefan Stojanov Robert Z. Sparks Zi Yin ... Steven Y. Feng Chengxu Zhuang V. Marchman Daniel L. K. Yamins Michael C. Frank VGen EgoV 30 2 0 14 Jun 2024
L4GM: Large 4D Gaussian Reconstruction Model Jiawei Ren Kevin Xie Ashkan Mirzaei Hanxue Liang Xiaohui Zeng ... Ziwei Liu Antonio Torralba Sanja Fidler Seung Wook Kim Huan Ling 3DGS 27 37 0 14 Jun 2024
Localizing Events in Videos with Multimodal Queries Gengyuan Zhang Mang Ling Ada Fok Yan Xia Yansong Tang Daniel Cremers Philip H. S. Torr Volker Tresp Jindong Gu 31 1 0 14 Jun 2024
Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild Lingni Ma Yuting Ye Fangzhou Hong Vladimir Guzov Yifeng Jiang ... C. Karen Liu Ziwei Liu Jakob Engel R. D. Nardi Richard Newcombe 32 21 0 14 Jun 2024
PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos Steven Abreu Tiffany D. Do Ruofei Du Eric J. Gonzalez Lee Payne Daniel J. McDuff Mar Gonzalez-Franco 45 2 0 14 Jun 2024
A Survey of Video Datasets for Grounded Event Understanding Kate Sanders Benjamin Van Durme 40 4 0 14 Jun 2024
CARLOR @ Ego4D Step Grounding Challenge: Bayesian temporal-order priors for test time refinement Carlos Plou Lorenzo Mur-Labadia Ruben Martinez-Cantin Ana C. Murillo BDL 54 1 0 13 Jun 2024
Explore the Limits of Omni-modal Pretraining at Scale Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue VLM LRM 49 1 0 13 Jun 2024
MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding Fei Wang Xingyu Fu James Y. Huang Zekun Li Qin Liu ... Kai-Wei Chang Dan Roth Sheng Zhang Hoifung Poon Muhao Chen VLM 50 47 0 13 Jun 2024
EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding Yuan-Ming Li Wei-Jin Huang An-Lan Wang Ling-an Zeng Jing-Ke Meng Wei-Shi Zheng 37 12 0 13 Jun 2024
RMem: Restricted Memory Banks Improve Video Object Segmentation Junbao Zhou Ziqi Pang Yu-xiong Wang VOS 63 7 0 12 Jun 2024
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos Xuehai He Weixi Feng Kaizhi Zheng Yujie Lu Wanrong Zhu ... Zhengyuan Yang Kevin Lin William Yang Wang Lijuan Wang Xin Eric Wang VGen LRM 46 12 0 12 Jun 2024
Eyes Wide Unshut: Unsupervised Mistake Detection in Egocentric Procedural Video by Detecting Unpredictable Gaze Michele Mazzamuto Antonino Furnari G. Farinella EgoV 34 0 0 12 Jun 2024
Identification of Conversation Partners from Egocentric Video Tobias Dorszewski S. Fuglsang Jens Hjortkjær EgoV 46 0 0 12 Jun 2024
Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams Haoji Zhang Yiqin Wang Yansong Tang Yong-Jin Liu Jiashi Feng Jifeng Dai Xiaojie Jin 45 38 0 12 Jun 2024
On the Application of Egocentric Computer Vision to Industrial Scenarios Vivek Chavan O. Heimann Jörg Krüger EgoV 24 0 0 11 Jun 2024
Hybrid Reinforcement Learning from Offline Observation Alone Yuda Song J. Andrew Bagnell Aarti Singh OffRL 84 2 0 11 Jun 2024
Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning Donghu Kim Hojoon Lee Kyungmin Lee Dongyoon Hwang Jaegul Choo OffRL 31 1 0 10 Jun 2024
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions Lin Chen Xilin Wei Jinsong Li Xiaoyi Dong Pan Zhang ... Li Yuan Yu Qiao Dahua Lin Feng Zhao Jiaqi Wang 74 142 0 06 Jun 2024
Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy Yunho Kim Jeong Hyun Lee Choongin Lee Juhyeok Mun D. Youm Jeongsoo Park Jemin Hwangbo 37 1 0 05 Jun 2024
What Matters in Hierarchical Search for Combinatorial Reasoning Problems? Michał Zawalski Gracjan Góral Michał Tyrolski Emilia Wisnios Franciszek Budrowski Marek Cygan Łukasz Kuciński Piotr Miłoś 47 0 0 05 Jun 2024
Few-Shot Classification of Interactive Activities of Daily Living (InteractADL) Zane Durante Robathan Harries Edward Vendrow Zelun Luo Yuta Kyuragi Kazuki Kozuka Fei-Fei Li Ehsan Adeli VLM 25 0 0 03 Jun 2024