Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

v1v2v3v4 (latest)

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

14 March 2025

Heinrich Dinkel

ArXiv (abs)PDF HTML

Papers citing "Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering"

18 / 18 papers shown

Title
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models Guanghao Zhou Panjia Qiu Chong Chen Jiadong Wang Zheming Yang Jian Xu Minghui Qiu OffRL LRM 169 8 0 30 Apr 2025
SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning Cheng Wen Tingwei Guo Shuaijiang Zhao Wei Zou Xiangang Li OffRL AuLLM LRM 98 6 0 22 Apr 2025
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model Hengguang Zhou Xirui Li Ruochen Wang Minhao Cheng Tianyi Zhou Cho-Jui Hsieh OffRL LRM ReLM 141 66 0 07 Mar 2025
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities Sreyan Ghosh Zhifeng Kong Sonal Kumar S. Sakshi Jaehyeon Kim Ming-Yu Liu Rafael Valle Dinesh Manocha Bryan Catanzaro MLLM AuLLM LRM 92 21 0 06 Mar 2025
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models Zhifei Xie Mingbao Lin Ziqiang Liu Pengcheng Wu Shuicheng Yan Chunyan Miao AuLLM OffRL LRM 127 17 0 04 Mar 2025
All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning Gokul Swamy Sanjiban Choudhury Wen Sun Zhiwei Steven Wu J. Andrew Bagnell OffRL 131 19 0 03 Mar 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 373 1,967 0 22 Jan 2025
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model Zejun Ma Zhuo Chen Yansen Wang Eng Siong Chng Xie Chen AuLLM LRM 113 15 0 13 Jan 2025
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark S. Sakshi Utkarsh Tyagi Sonal Kumar Ashish Seth Ramaneswaran Selvakumar Oriol Nieto R. Duraiswami Sreyan Ghosh Dinesh Manocha AuLLM ELM 112 45 0 24 Oct 2024
SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs Wenxi Chen Ziyang Ma Xiquan Li Xuenan Xu Yuzhe Liang Zhisheng Zheng Kai Yu Xie Chen 76 7 0 12 Oct 2024
EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance Jaeyeon Kim Minjeon Jeon Jaeyoon Jung Sang Hoon Woo Jinjoo Lee 70 3 0 02 Sep 2024
Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning Jaeyeon Kim Jaeyoon Jung Minjeong Jeon Sang Hoon Woo Jinjoo Lee 78 1 0 02 Sep 2024
Qwen2-Audio Technical Report Yunfei Chu Jin Xu Qian Yang Haojie Wei Xipin Wei ... Yuanjun Lv Jinzheng He Junyang Lin Chang Zhou Jingren Zhou AuLLM VLM 70 161 0 15 Jul 2024
Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding Jizhong Liu Gang Li Junbo Zhang Heinrich Dinkel Yongqing Wang Zhiyong Yan Yujun Wang Bin Wang AuLLM 116 5 0 19 Jun 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 138 1,238 0 05 Feb 2024
SALMONN: Towards Generic Hearing Abilities for Large Language Models Changli Tang Wenyi Yu Guangzhi Sun Xianzhao Chen Tian Tan Wei Li Lu Lu Zejun Ma Chao Zhang LM&MA AuLLM 89 263 0 20 Oct 2023
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 477 10,367 0 17 Jun 2021
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 520 19,237 0 20 Jul 2017