v1v2 (latest)

Spatial Audio Processing with Large Language Model on Wearable Devices

11 April 2025

Ayushi Mishra

Yang Bai

Priyadarshan Narayanasamy

Nakul Garg

Nirupam Roy

ArXiv (abs)PDF HTML

Papers citing "Spatial Audio Processing with Large Language Model on Wearable Devices"

25 / 25 papers shown

Title
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models Guangzhi Sun Wenyi Yu Changli Tang Xianzhao Chen Tian Tan Wei Li Lu Lu Zejun Ma Yuxuan Wang Chao Zhang 81 34 0 22 Jun 2024
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities Sreyan Ghosh Sonal Kumar Ashish Seth Chandra Kiran Reddy Evuru Utkarsh Tyagi S. Sakshi Oriol Nieto R. Duraiswami Dinesh Manocha AuLLM LRM 92 58 0 17 Jun 2024
Can Large Language Models Understand Spatial Audio? Changli Tang Wenyi Yu Guangzhi Sun Xianzhao Chen Tian Tan ... Jun Zhang Lu Lu Zejun Ma Yuxuan Wang Chao Zhang 96 5 0 12 Jun 2024
PICLe: Eliciting Diverse Behaviors from Large Language Models with Persona In-Context Learning Hyeong Kyu Choi Yixuan Li 110 19 0 03 May 2024
MAGDi: Structured Distillation of Multi-Agent Interaction Graphs Improves Reasoning in Smaller Language Models Justin Chih-Yao Chen Swarnadeep Saha Elias Stengel-Eskin Mohit Bansal LRM LLMAG 52 22 0 02 Feb 2024
BAT: Learning to Reason about Spatial Sounds with Large Language Models Zhisheng Zheng Puyuan Peng Ziyang Ma Xie Chen Eunsol Choi David Harwath LRM 89 16 0 02 Feb 2024
How to Bridge the Gap between Modalities: Survey on Multimodal Large Language Model Shangwen Wang Xiaopeng Li Shasha Li Shan Zhao Jie Yu Jun Ma Xiaoguang Mao Weimin Zhang 84 6 0 10 Nov 2023
SALMONN: Towards Generic Hearing Abilities for Large Language Models Changli Tang Wenyi Yu Guangzhi Sun Xianzhao Chen Tian Tan Wei Li Lu Lu Zejun Ma Chao Zhang LM&MA AuLLM 89 254 0 20 Oct 2023
Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles Can Cui Yunsheng Ma Xu Cao Wenqian Ye Ziran Wang 98 111 0 19 Sep 2023
Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers Yuan Gong Sameer Khurana Leonid Karlinsky James R. Glass 63 71 0 06 Jul 2023
SugarCrepe: Fixing Hackable Benchmarks for Vision-Language Compositionality Cheng-Yu Hsieh Jieyu Zhang Zixian Ma Aniruddha Kembhavi Ranjay Krishna CoGe 103 131 0 26 Jun 2023
A Survey on Multimodal Large Language Models Shukang Yin Chaoyou Fu Sirui Zhao Ke Li Xing Sun Tong Xu Enhong Chen MLLM LRM 124 591 0 23 Jun 2023
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training Yizhi Li Ruibin Yuan Ge Zhang Yi Ma Xingran Chen ... Yemin Shi Wen-Fen Huang Zili Wang Yi-Ting Guo Jie Fu 86 126 0 31 May 2023
AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head Rongjie Huang Mingze Li Dongchao Yang Jiatong Shi Xuankai Chang ... Jia-Bin Huang Jinglin Liu Yixiang Ren Zhou Zhao Shinji Watanabe LM&MA AuLLM 83 226 0 25 Apr 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 560 4,861 0 17 Apr 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.4K 14,631 0 15 Mar 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 1.5K 13,247 0 27 Feb 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 426 4,563 0 30 Jan 2023
Robust Speech Recognition via Large-Scale Weak Supervision Alec Radford Jong Wook Kim Tao Xu Greg Brockman C. McLeavey Ilya Sutskever OffRL 194 3,684 0 06 Dec 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 416 3,542 0 29 Apr 2022
Common Voice: A Massively-Multilingual Speech Corpus Rosana Ardila Megan Branson Kelly Davis Michael Henretty M. Kohler Josh Meyer Reuben Morais Lindsay Saunders Francis M. Tyers Gregor Weber VLM 91 1,600 0 13 Dec 2019
Sound Event Localization and Detection of Overlapping Sources Using Convolutional Recurrent Neural Networks Sharath Adavanne Archontis Politis Joonas Nikunen Tuomas Virtanen 66 470 0 30 Jun 2018
UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction Leland McInnes John Healy James Melville 178 9,432 0 09 Feb 2018
VoxCeleb: a large-scale speaker identification dataset Arsha Nagrani Joon Son Chung Andrew Zisserman 127 2,274 0 26 Jun 2017
Convolutional Gated Recurrent Neural Network Incorporating Spatial Features for Audio Tagging Yong-mei Xu Qiuqiang Kong Qiang Huang Wenwu Wang Mark D. Plumbley 68 102 0 24 Feb 2017