BESTOW: Efficient and Streamable Speech Language Model with the Best of
Two Worlds in GPT and T5

BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5

28 June 2024

Zhehuai Chen

Oleksii Hrinchuk

Krishna Puvvada

Nithin Rao Koluguri

Piotr Żelasko

Jagadeesh Balam

Boris Ginsburg

Papers citing "BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5"

12 / 12 papers shown

Title
TinyLlama: An Open-Source Small Language Model Peiyuan Zhang Guangtao Zeng Tianduo Wang Wei Lu ALM LRM 96 374 0 04 Jan 2024
SLM: Bridge the thin gap between speech and text foundation models Mingqiu Wang Wei Han Izhak Shafran Zelin Wu Chung-Cheng Chiu ... Zhong Meng Golan Pundak Nikhil Siddhartha J. Schalkwyk Yonghui Wu AuLLM 64 56 0 30 Sep 2023
Qwen Technical Report Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang ... Zhenru Zhang Chang Zhou Jingren Zhou Xiaohuan Zhou Tianhang Zhu OSLM 150 1,709 0 28 Sep 2023
Information-Transport-based Policy for Simultaneous Translation Shaolei Zhang Yang Feng 66 50 0 22 Oct 2022
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech Alexis Conneau Min Ma Simran Khanuja Yu Zhang Vera Axelrod Siddharth Dalmia Jason Riesa Clara E. Rivera Ankur Bapna VLM 102 306 0 25 May 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 268 3,458 0 29 Apr 2022
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 191 9,946 0 17 Jun 2021
GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio Guoguo Chen Shuzhou Chai Guan-Bo Wang Jiayu Du Weiqiang Zhang ... Xuchen Yao Yongqing Wang Yujun Wang Zhao You Zhiyong Yan 74 360 0 13 Jun 2021
SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation Xutai Ma J. Pino Philipp Koehn 31 95 0 03 Nov 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 188 3,082 0 16 May 2020
NeMo: a toolkit for building AI applications using Neural Modules Oleksii Kuchaiev Jason Chun Lok Li Huyen Nguyen Oleksii Hrinchuk Ryan Leary ... Jack Cook P. Castonguay Mariya Popova Jocelyn Huang Jonathan M. Cohen 221 300 0 14 Sep 2019
Sequence Transduction with Recurrent Neural Networks Alex Graves 121 1,858 0 14 Nov 2012