Epic-Sounds: A Large-scale Dataset of Actions That Sound

1 February 2023

Dima Damen

Papers citing "Epic-Sounds: A Large-scale Dataset of Actions That Sound"

30 / 30 papers shown

Title
FSSUAVL: A Discriminative Framework using Vision Models for Federated Self-Supervised Audio and Image Understanding Yasar Abbas Ur Rehman Kin Wai Lau Yuyang Xie Ma Lan Jiajun Shen 34 0 0 13 Apr 2025
CA^2ST: Cross-Attention in Audio, Space, and Time for Holistic Video Recognition Jongseo Lee Joohyun Chang Dongho Lee Jinwoo Choi 56 0 0 30 Mar 2025
OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection Shuming Liu Chen Zhao Fatimah Zohra Mattia Soldan Alejandro Pardo ... Juan Carlos León Alcázar A. Cioppa Silvio Giancola Carlos Hinojosa Bernard Ghanem 68 3 0 27 Feb 2025
When Vision Models Meet Parameter Efficient Look-Aside Adapters Without Large-Scale Audio Pretraining Juan Yeo Jinkwan Jang Kyubyung Chae Seongkyu Mun Taesup Kim VLM 62 0 0 08 Dec 2024
BadScan: An Architectural Backdoor Attack on Visual State Space Models Om Suhas Deshmukh Sankalp Nagaonkar A. Tripathi Ashish Mishra Mamba 90 0 0 26 Nov 2024
Self-Supervised Audio-Visual Soundscape Stylization Tingle Li Renhao Wang Po-Yao Huang Andrew Owens Gopala Anumanchipalli DiffM SSL 38 4 0 22 Sep 2024
Computer Audition: From Task-Specific Machine Learning to Foundation Models Andreas Triantafyllopoulos Iosif Tsangko Alexander Gebhard A. Mesaros Tuomas Virtanen Björn Schuller 45 4 0 22 Jul 2024
ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions Jiu Feng Mehmet Hamza Erol Joon Son Chung Arda Senocak 31 1 0 11 Jul 2024
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos Changan Chen Puyuan Peng Ami Baid Zihui Xue Wei-Ning Hsu David Harwath Kristen Grauman VGen 42 8 0 13 Jun 2024
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning Mehmet Hamza Erol Arda Senocak Jiu Feng Joon Son Chung Mamba 73 19 0 05 Jun 2024
Images that Sound: Composing Images and Sounds on a Single Canvas Ziyang Chen Daniel Geng Andrew Owens DiffM 50 9 0 20 May 2024
AudioRepInceptionNeXt: A lightweight single-stream architecture for efficient audio recognition Kin Wai Lau Yasar Abbas Ur Rehman L. Po 44 1 0 21 Apr 2024
TIM: A Time Interval Machine for Audio-Visual Action Recognition Jacob Chalk Jaesung Huh Evangelos Kazakos Andrew Zisserman Dima Damen 46 9 0 08 Apr 2024
SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos Changan Chen Kumar Ashutosh Rohit Girdhar David Harwath Kristen Grauman EgoV SSL 28 6 0 08 Apr 2024
A SOUND APPROACH: Using Large Language Models to generate audio descriptions for egocentric text-audio retrieval Andreea-Maria Oncescu João F. Henriques Andrew Zisserman Samuel Albanie A. Sophia Koepke 28 5 0 29 Feb 2024
Exploring Federated Self-Supervised Learning for General Purpose Audio Understanding Yasar Abbas Ur Rehman Kin Wai Lau Yuyang Xie Lan Ma Jiajun Shen 81 1 0 05 Feb 2024
Exploring Missing Modality in Multimodal Egocentric Datasets Merey Ramazanova Alejandro Pardo Humam Alwassel Guohao Li EgoV 38 4 0 21 Jan 2024
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling Ruihan Yang H. Gamper Sebastian Braun DiffM 32 5 0 08 Dec 2023
LEAP: LLM-Generation of Egocentric Action Programs Eadom Dessalene Michael Maynord Cornelia Fermuller Yiannis Aloimonos 38 3 0 29 Nov 2023
Centre Stage: Centricity-based Audio-Visual Temporal Action Detection Hanyuan Wang Majid Mirmehdi Dima Damen Toby Perrett 49 2 0 28 Nov 2023
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities A. Piergiovanni Isaac Noble Dahun Kim Michael S. Ryoo Victor Gomes A. Angelova 43 19 0 09 Nov 2023
FedAIoT: A Federated Learning Benchmark for Artificial Intelligence of Things Samiul Alam Tuo Zhang Tiantian Feng Hui Shen Zhichao Cao ... JeongGil Ko Kiran Somasundaram Shrikanth S. Narayanan Salman Avestimehr Mi Zhang 38 11 0 29 Sep 2023
UnLoc: A Unified Framework for Video Localization Tasks Shengjia Yan Xuehan Xiong Arsha Nagrani Anurag Arnab Zhonghao Wang Weina Ge David A. Ross Cordelia Schmid 33 53 0 21 Aug 2023
DiffSED: Sound Event Detection with Denoising Diffusion Swapnil Bhosale Sauradip Nag Diptesh Kanojia Jiankang Deng Xiatian Zhu DiffM 36 8 0 14 Aug 2023
An Outlook into the Future of Egocentric Vision Chiara Plizzari Gabriele Goletto Antonino Furnari Siddhant Bansal Francesco Ragusa G. Farinella Dima Damen Tatiana Tommasi EgoV 40 38 0 14 Aug 2023
AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023 Kin Wai Lau Yasar Abbas Ur Rehman Yuyang Xie Lan Ma 13 1 0 14 Jul 2023
Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos Sagnik Majumder Ziad Al-Halah Kristen Grauman SSL EgoV 36 4 0 10 Jul 2023
Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models Simian Luo Chuanhao Yan Chenxu Hu Hang Zhao DiffM 28 79 0 29 Jun 2023
Team AcieLee: Technical Report for EPIC-SOUNDS Audio-Based Interaction Recognition Challenge 2023 Yuqi Li Yi-Jhen Luo Xiaoshuai Hao Chuanguang Yang Zhulin An Dantong Song Wei Yi 35 0 0 15 Jun 2023
Vision+X: A Survey on Multimodal Learning in the Light of Data Ye Zhu Yuehua Wu N. Sebe Yan Yan 35 16 0 05 Oct 2022