Hydra: Bidirectional State Space Models Through Generalized Matrix
Mixers

Hydra: Bidirectional State Space Models Through Generalized Matrix Mixers

13 July 2024

Papers citing "Hydra: Bidirectional State Space Models Through Generalized Matrix Mixers"

16 / 16 papers shown

Title
MamBEV: Enabling State Space Models to Learn Birds-Eye-View Representations Hongyu Ke Jack Morris K. Oguchi Xiaofei Cao Yongkang Liu Haoxin Wang Yi Ding Mamba 109 0 0 18 Mar 2025
Is Long Range Sequential Modeling Necessary For Colorectal Tumor Segmentation? Abhishek Srivastava Koushik Biswas Gorkem Durak Gulsah Ozden Mustafa Adli Ulas Bagci Mamba 3DV 76 0 0 10 Feb 2025
MambaFoley: Foley Sound Generation using Selective State-Space Models Marco Furio Colombo Francesca Ronchini Luca Comanducci Fabio Antonacci Mamba 50 1 0 13 Sep 2024
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models Aviv Bick Kevin Y. Li Eric P. Xing J. Zico Kolter Albert Gu Mamba 80 28 0 19 Aug 2024
Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling Yair Schiff Chia-Hsiang Kao Aaron Gokaslan Tri Dao Albert Gu Volodymyr Kuleshov Mamba 36 85 0 05 Mar 2024
Multi-Head State Space Model for Speech Recognition Yassir Fathullah Chunyang Wu Yuan Shangguan Junteng Jia Wenhan Xiong ... Chunxi Liu Yangyang Shi Ozlem Kalinli M. Seltzer Mark Gales 37 13 0 21 May 2023
On the Parameterization and Initialization of Diagonal State Space Models Albert Gu Ankit Gupta Karan Goel Christopher Ré 51 308 0 23 Jun 2022
Monarch: Expressive Structured Matrices for Efficient and Accurate Training Tri Dao Beidi Chen N. Sohoni Arjun D Desai Michael Poli Jessica Grogan Alexander Liu Aniruddh Rao Atri Rudra Christopher Ré 71 90 0 01 Apr 2022
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 381 2,638 0 04 May 2021
How to Train BERT with an Academic Budget Peter Izsak Moshe Berchansky Omer Levy 77 116 0 15 Apr 2021
CKConv: Continuous Kernel Convolution For Sequential Data David W. Romero Anna Kuzina Erik J. Bekkers Jakub M. Tomczak Mark Hoogendoorn 45 125 0 04 Feb 2021
Kaleidoscope: An Efficient, Learnable Representation For All Structured Linear Maps Tri Dao N. Sohoni Albert Gu Matthew Eichhorn Amit Blonder Megan Leszczynski Atri Rudra Christopher Ré 40 47 0 29 Dec 2020
Training data-efficient image transformers & distillation through attention Hugo Touvron Matthieu Cord Matthijs Douze Francisco Massa Alexandre Sablayrolles Hervé Jégou ViT 303 6,657 0 23 Dec 2020
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention Angelos Katharopoulos Apoorv Vyas Nikolaos Pappas Franccois Fleuret 115 1,734 0 29 Jun 2020
Linformer: Self-Attention with Linear Complexity Sinong Wang Belinda Z. Li Madian Khabsa Han Fang Hao Ma 170 1,678 0 08 Jun 2020
Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau Kyunghyun Cho Yoshua Bengio AIMat 390 27,205 0 01 Sep 2014