Multi-encoder attention-based architectures for sound recognition with partial visual assistance

26 September 2022

Papers citing "Multi-encoder attention-based architectures for sound recognition with partial visual assistance"

11 / 11 papers shown

Title
Training Sound Event Detection On A Heterogeneous Dataset Nicolas Turpault Romain Serizel 50 61 0 08 Jul 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 210 3,119 0 16 May 2020
Temporally Coherent Embeddings for Self-Supervised Video Representation Learning Joshua Knights Ben Harwood Daniel Ward Anthony Vanderkop Olivia Mackenzie-Ross Peyman Moghadam AI4TS 45 38 0 21 Mar 2020
On Layer Normalization in the Transformer Architecture Ruibin Xiong Yunchang Yang Di He Kai Zheng Shuxin Zheng Chen Xing Huishuai Zhang Yanyan Lan Liwei Wang Tie-Yan Liu AI4CE 112 988 0 12 Feb 2020
Audiovisual Transformer Architectures for Large-Scale Classification and Synchronization of Weakly Labeled Audio Events Wim Boes Hugo Van hamme 37 17 0 02 Dec 2019
A Framework for the Robust Evaluation of Sound Event Detection Cagdas Bilen Giacomo Ferroni Francesco Tuveri Juan Azcarreta Sacha Krstulović 61 163 0 18 Oct 2019
Understanding and Improving Transformer From a Multi-Particle Dynamic System Point of View Yiping Lu Zhuohan Li Di He Zhiqing Sun Bin Dong Tao Qin Liwei Wang Tie-Yan Liu AI4CE 57 172 0 06 Jun 2019
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context Zihang Dai Zhilin Yang Yiming Yang J. Carbonell Quoc V. Le Ruslan Salakhutdinov VLM 186 3,721 0 09 Jan 2019
mixup: Beyond Empirical Risk Minimization Hongyi Zhang Moustapha Cissé Yann N. Dauphin David Lopez-Paz NoLa 269 9,743 0 25 Oct 2017
Language Modeling with Gated Convolutional Networks Yann N. Dauphin Angela Fan Michael Auli David Grangier 212 2,391 0 23 Dec 2016
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 332 10,467 0 21 Jul 2016