EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos

30 July 2024

Papers citing "EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos"

22 / 22 papers shown

Title
UVGS: Reimagining Unstructured 3D Gaussian Splatting using UV Mapping Aashish Rai Dilin Wang Mihir Jain N. Sarafianos Arthur Chen Srinath Sridhar Aayush Prakash 3DGS 140 1 0 03 Feb 2025
Aria Digital Twin: A New Benchmark Dataset for Egocentric 3D Machine Perception Xiaqing Pan Nicholas Charron Yongqiang Yang Scott Peters Thomas Whelan Chen Kong Omkar M. Parkhi Richard Newcombe C. Ren VGen 53 62 0 10 Jun 2023
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths Zeyue Xue Guanglu Song Qiushan Guo Boxiao Liu Zhuofan Zong Yu Liu Ping Luo DiffM 96 133 0 29 May 2023
Expressive Text-to-Image Generation with Rich Text Songwei Ge Taesung Park Jun-Yan Zhu Jia-Bin Huang DiffM 106 82 0 13 Apr 2023
Adding Conditional Control to Text-to-Image Diffusion Models Lvmin Zhang Anyi Rao Maneesh Agrawala AI4CE 103 4,074 1 10 Feb 2023
Novel-View Acoustic Synthesis Changan Chen Alexander Richard Roman Shapovalov V. Ithapu Natalia Neverova Kristen Grauman Andrea Vedaldi 61 35 0 20 Jan 2023
ReCo: Region-Controlled Text-to-Image Generation Zhengyuan Yang Jianfeng Wang Zhe Gan Linjie Li Kevin Qinghong Lin ... Nan Duan Zicheng Liu Ce Liu Michael Zeng Lijuan Wang DiffM 80 148 0 23 Nov 2022
AudioGen: Textually Guided Audio Generation Felix Kreuk Gabriel Synnaeve Adam Polyak Uriel Singer Alexandre Défossez Jade Copet Devi Parikh Yaniv Taigman Yossi Adi DiffM 60 306 0 30 Sep 2022
Make-A-Video: Text-to-Video Generation without Text-Video Data Uriel Singer Adam Polyak Thomas Hayes Xiaoyue Yin Jie An ... Oron Ashual Oran Gafni Devi Parikh Sonal Gupta Yaniv Taigman DiffM VGen 74 1,399 0 29 Sep 2022
VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection Joanna Hong Minsu Kim Y. Ro CVBM DiffM 48 8 0 15 Jun 2022
Multimodal Learning with Transformers: A Survey Peng Xu Xiatian Zhu David Clifton ViT 105 555 0 13 Jun 2022
Egocentric Video-Language Pretraining Kevin Qinghong Lin Alex Jinpeng Wang Mattia Soldan Michael Wray Rui Yan ... Hongfa Wang Dima Damen Guohao Li Wei Liu Mike Zheng Shou VLM EgoV 71 201 0 03 Jun 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 345 15,373 0 20 Dec 2021
Taming Visually Guided Sound Generation Vladimir E. Iashin Esa Rahtu VLM 85 126 0 17 Oct 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 808 29,167 0 26 Feb 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 382 4,919 0 24 Feb 2021
Video Summarization Using Deep Neural Networks: A Survey Evlampios Apostolidis E. Adamantidou Alexandros I. Metsai Vasileios Mezaris Ioannis Patras AI4TS 79 209 0 15 Jan 2021
Audio-Visual Floorplan Reconstruction Senthil Purushwalkam S. V. A. Garí V. Ithapu Carl Schissler Philip Robinson Abhinav Gupta Kristen Grauman VGen 3DV 99 41 0 31 Dec 2020
Denoising Diffusion Implicit Models Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 208 7,294 0 06 Oct 2020
NVAE: A Deep Hierarchical Variational Autoencoder Arash Vahdat Jan Kautz BDL 67 908 0 08 Jul 2020
The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines Dima Damen Hazel Doughty G. Farinella Sanja Fidler Antonino Furnari ... Davide Moltisanti Jonathan Munro Toby Perrett Will Price Michael Wray EgoV 52 232 0 29 Apr 2020
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 1.5K 76,917 0 18 May 2015