Title
Object-Shot Enhanced Grounding Network for Egocentric Video Yisen Feng Haoyu Zhang Meng Liu Weili Guan Liqiang Nie 38 0 0 07 May 2025
Reducing Annotation Burden in Physical Activity Research Using Vision-Language Models Abram Schonfeldt Benjamin Maylor Xiaofang Chen Ronald Clark Aiden Doherty 68 0 0 06 May 2025
Vision and Intention Boost Large Language Model in Long-Term Action Anticipation Congqi Cao Lanshu Hu Yating Yu Y. Zhang VLM 135 0 0 03 May 2025
Knowledge Distillation for Multimodal Egocentric Action Recognition Robust to Missing Modalities Maria Santos-Villafranca Dustin Carrión-Ojeda Alejandro Pérez-Yus J. Bermudez-Cameo Jose J. Guerrero Simone Schaub-Meyer EgoV VLM 37 0 0 11 Apr 2025
ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric Interaction Yuejiao Su Yi Wang Qiongyang Hu Chuang Yang Lap-Pui Chau 45 0 0 02 Apr 2025
Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs Sanjoy Chowdhury Hanan Gani Nishit Anand Sayan Nag Ruohan Gao Mohamed Elhoseiny Salman Khan Dinesh Manocha LRM 49 0 0 29 Mar 2025
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning Chi-Hsi Kung Frangil Ramirez Juhyung Ha Yi-Ting Chen David J. Crandall Yi-Hsuan Tsai 43 0 0 27 Mar 2025
EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining Boshen Xu Yuting Mei Xinbi Liu Sipeng Zheng Qin Jin VLM MDE 65 0 0 19 Mar 2025
Stitch-a-Recipe: Video Demonstration from Multistep Descriptions Chi Hsuan Wu Kumar Ashutosh Kristen Grauman DiffM 60 0 0 18 Mar 2025
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning Y. Liu Kevin Qinghong Lin C. Chen Mike Zheng Shou LM&Ro LRM 79 0 0 17 Mar 2025
Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos Chiara Plizzari A. Tonioni Yongqin Xian Achin Kulshrestha F. Tombari EgoV 58 0 0 17 Mar 2025
EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting Di Li Jie Feng Jiahao Chen Weisheng Dong Guanbin Li G. Shi Licheng Jiao 3DGS VLM 145 0 0 14 Mar 2025
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary Kevin Qinghong Lin Mike Zheng Shou VGen 141 1 0 12 Mar 2025
Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding Haoyu Zhang Qiaohui Chu Meng Liu Yunxiao Wang Bin Wen Fan Yang Tingting Gao Di Zhang Yaowei Wang Liqiang Nie EgoV 70 0 0 12 Mar 2025
EgoBlind: Towards Egocentric Visual Assistance for the Blind People Junbin Xiao Nanxin Huang Hao Qiu Zhulin Tao Xun Yang Richang Hong M. Wang Angela Yao EgoV VLM 65 0 0 11 Mar 2025
EgoLife: Towards Egocentric Life Assistant Jingkang Yang Shuai Liu Hongming Guo Yuhao Dong X. Zhang ... Joerg Widmer Francesco Gringoli Lei Yang Bo Li Z. Liu EgoV 51 2 0 05 Mar 2025
Learning to Generate Long-term Future Narrations Describing Activities of Daily Living Ramanathan Rajendiran Debaditya Roy Basura Fernando VGen 41 0 0 03 Mar 2025
Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning Baoqi Pei Y. Huang Jilan Xu Guo Chen Yuping He ... Yali Wang Weidi Xie Yu Qiao Fei Wu Limin Wang 41 0 0 02 Mar 2025
OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection Shuming Liu Chen Zhao Fatimah Zohra Mattia Soldan Alejandro Pardo ... Juan Carlos León Alcázar A. Cioppa Silvio Giancola Carlos Hinojosa Bernard Ghanem 65 3 0 27 Feb 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 81 2 0 10 Jan 2025
Graph-Based Multimodal and Multi-view Alignment for Keystep Recognition Julia Lee Romero Kyle Min Subarna Tripathi Morteza Karimzadeh 30 0 0 07 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 88 11 0 06 Jan 2025
Vinci: A Real-time Embodied Smart Assistant based on Egocentric Vision-Language Model Y. Huang Jilan Xu Baoqi Pei Yuping He Guo Chen ... Kunpeng Li C. Yuan Y. Wang Yu Qiao L. Wang 78 4 0 31 Dec 2024
GEXIA: Granularity Expansion and Iterative Approximation for Scalable Multi-grained Video-language Learning Y. Wang Zhikang Zhang Jue Wang D. Fan Zhenlin Xu Linda Liu Xiang Hao Vimal Bhat Xinyu Li VLM 82 1 0 10 Dec 2024
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios Lu Qiu Yuying Ge Yi Chen Yixiao Ge Ying Shan Xihui Liu LLMAG LRM 96 5 0 05 Dec 2024
Streaming Detection of Queried Event Start Cristobal Eyzaguirre Eric Tang S. Buch Adrien Gaidon Jiajun Wu Juan Carlos Niebles 74 0 0 04 Dec 2024
SEAL: Semantic Attention Learning for Long Video Representation Lan Wang Yujia Chen Wen-Sheng Chu Vishnu Naresh Boddeti Du Tran VLM 75 0 0 02 Dec 2024
LAGUNA: LAnguage Guided UNsupervised Adaptation with structured spaces Anxhelo Diko Antonino Furnari Luigi Cinque G. Farinella 90 0 0 23 Nov 2024
EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation Xiaofeng Wang Kang Zhao F. Liu Jiayu Wang Guosheng Zhao Xiaoyi Bao Zheng Hua Zhu Yingya Zhang Xingang Wang VGen 56 6 0 13 Nov 2024
It's Just Another Day: Unique Video Captioning by Discriminative Prompting Toby Perrett Tengda Han Dima Damen Andrew Zisserman 19 3 0 15 Oct 2024
Cognition Transferring and Decoupling for Text-supervised Egocentric Semantic Segmentation Zhaofeng Shi Heqian Qiu Lanxiao Wang Fanman Meng Q. Wu Hongliang Li 26 2 0 02 Oct 2024
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation Kun Yuan V. Srivastav Nassir Navab N. Padoy 44 7 0 30 Sep 2024
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding Ye Liu Zongyang Ma Zhongang Qi Yang Wu Ying Shan Chang Wen Chen 31 16 0 26 Sep 2024
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation Shiwei Wu Joya Chen Kevin Qinghong Lin Qimeng Wang Yan Gao Qianli Xu Tong Bill Xu Yao Hu Enhong Chen Mike Zheng Shou VLM 47 12 0 29 Aug 2024
COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark Koki Maeda Tosho Hirasawa Atsushi Hashimoto Jun Harashima Leszek Rybicki Yusuke Fukasawa Yoshitaka Ushiku 45 0 0 05 Aug 2024
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance Mrinal Verghese Brian Chen H. Eghbalzadeh Tushar Nagarajan Ruta Desai LRM 45 1 0 04 Aug 2024
ExpertAF: Expert Actionable Feedback from Video Kumar Ashutosh Tushar Nagarajan Georgios Pavlakos Kris M. Kitani Kristen Grauman VGen 44 2 0 01 Aug 2024
Learning Video Context as Interleaved Multimodal Sequences S. Shao Pengchuan Zhang Y. Li Xide Xia A. Meso Ziteng Gao Jinheng Xie N. Holliman Mike Zheng Shou 41 5 0 31 Jul 2024
EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos Aashish Rai Srinath Sridhar DiffM 38 4 0 30 Jul 2024
Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation Tz-Ying Wu Kyle Min Subarna Tripathi Nuno Vasconcelos EgoV 53 0 0 28 Jul 2024
Harnessing Temporal Causality for Advanced Temporal Action Detection Shuming Liu Lin Sui Chen-Da Liu-Zhang Fangzhou Mu Chen Zhao Bernard Ghanem CML 40 2 0 25 Jul 2024
EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval Thomas Hummel Shyamgopal Karthik Mariana-Iuliana Georgescu Zeynep Akata EgoV 34 4 0 23 Jul 2024
Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video Zachary Chavis Hyun Soo Park Stephen J. Guy EgoV 31 0 0 18 Jul 2024
ActionVOS: Actions as Prompts for Video Object Segmentation Liangyang Ouyang Ruicong Liu Yifei Huang Ryosuke Furuta Yoichi Sato VOS 33 2 0 10 Jul 2024
CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation Yuejiao Su Yi Wang Lap-Pui Chau 62 1 0 08 Jul 2024
DyFADet: Dynamic Feature Aggregation for Temporal Action Detection Le Yang Ziwei Zheng Yizeng Han Hao-Ran Cheng Shiji Song Gao Huang Fan Li 56 8 0 03 Jul 2024
EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation Baoqi Pei Guo Chen Jilan Xu Yuping He Yicheng Liu ... Yifei Huang Yali Wang Tong Lu Limin Wang Yu Qiao EgoV 33 14 0 26 Jun 2024
HCQA @ Ego4D EgoSchema Challenge 2024 Haoyu Zhang Yuquan Xie Yisen Feng Zaijing Li Meng Liu Liqiang Nie 29 2 0 22 Jun 2024
ViLCo-Bench: VIdeo Language COntinual learning Benchmark Tianqi Tang Shohreh Deldari Hao Xue Celso De Melo Flora D. Salim CLL 34 2 0 19 Jun 2024
Symmetric Multi-Similarity Loss for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2024 Xiaoqi Wang Yi Wang Lap-Pui Chau 31 0 0 18 Jun 2024