Visual Acoustic Matching

14 February 2022

Papers citing "Visual Acoustic Matching"

21 / 21 papers shown

Title
SOAF: Scene Occlusion-aware Neural Acoustic Field Huiyu Gao Jiahao Ma David Ahmedt-Aristizabal Chuong H. Nguyen Miaomiao Liu 69 2 0 02 Jul 2024
NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields Amandine Brunetto Sascha Hornauer Fabien Moutarde 78 1 0 28 May 2024
Images that Sound: Composing Images and Sounds on a Single Canvas Ziyang Chen Daniel Geng Andrew Owens DiffM 74 9 0 20 May 2024
The Right to Talk: An Audio-Visual Transformer Approach Thanh-Dat Truong C. Duong T. D. Vu H. Pham Bhiksha Raj Ngan Le Khoa Luu 68 36 0 06 Aug 2021
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Huayu Chen Boqing Gong ViT 260 581 0 22 Apr 2021
Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning Mandela Patrick Yuki M. Asano Bernie Huang Ishan Misra Florian Metze Joao Henriques Andrea Vedaldi AI4TS 40 34 0 18 Mar 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 307 2,016 0 09 Feb 2021
Semantic Audio-Visual Navigation Changan Chen Ziad Al-Halah Kristen Grauman 80 105 0 21 Dec 2020
Learning Representations from Audio-Visual Spatial Alignment Pedro Morgado Yi Li Nuno Vasconcelos SSL 40 121 0 03 Nov 2020
See, Hear, Explore: Curiosity via Audio-Visual Association Victoria Dean Shubham Tulsiani Abhinav Gupta 62 59 0 07 Jul 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 188 3,082 0 16 May 2020
Self-Supervised Learning by Cross-Modal Audio-Video Clustering Humam Alwassel D. Mahajan Bruno Korbar Lorenzo Torresani Guohao Li Du Tran SSL 56 429 0 28 Nov 2019
The Replica Dataset: A Digital Replica of Indoor Spaces Julian Straub Thomas Whelan Lingni Ma Yufan Chen Erik Wijmans ... H. Strasdat R. D. Nardi Michael Goesele S. Lovegrove Richard Newcombe 3DV 85 836 0 13 Jun 2019
The Sound of Motions Hang Zhao Chuang Gan Wei-Chiu Ma Antonio Torralba 51 252 0 11 Apr 2019
Phase-aware Speech Enhancement with Deep Complex U-Net Hyeong-Seok Choi Jang-Hyun Kim Jaesung Huh A. Kim Jung-Woo Ha Kyogu Lee 43 328 0 07 Mar 2019
WaveGlow: A Flow-based Generative Network for Speech Synthesis R. Prenger Rafael Valle Bryan Catanzaro 120 1,024 0 31 Oct 2018
Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization Bruno Korbar Du Tran Lorenzo Torresani 67 473 0 30 Jun 2018
The Sound of Pixels Hang Zhao Chuang Gan Andrew Rouditchenko Carl Vondrick Josh H. McDermott Antonio Torralba VLM 56 532 0 09 Apr 2018
Matterport3D: Learning from RGB-D Data in Indoor Environments Angel X. Chang Angela Dai Thomas Funkhouser Maciej Halber Matthias Nießner Manolis Savva Shuran Song Andy Zeng Yinda Zhang 3DV 3DPC 104 1,880 0 18 Sep 2017
Least Squares Generative Adversarial Networks Xudong Mao Qing Li Haoran Xie Raymond Y. K. Lau Zhen Wang Stephen Paul Smolley GAN 239 4,554 0 13 Nov 2016
WaveNet: A Generative Model for Raw Audio Aaron van den Oord Sander Dieleman Heiga Zen Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner A. Senior Koray Kavukcuoglu DiffM 265 7,361 0 12 Sep 2016