From block-Toeplitz matrices to differential equations on graphs:
towards a general theory for scalable masked Transformers

From block-Toeplitz matrices to differential equations on graphs: towards a general theory for scalable masked Transformers

16 July 2021

Haoxian Chen

Arijit Sehanobish

Valerii Likhosherstov

Jack Parker-Holder

Thomas Weingarten

Papers citing "From block-Toeplitz matrices to differential equations on graphs: towards a general theory for scalable masked Transformers"

9 / 9 papers shown

Title
Graph Fourier Transformer with Structure-Frequency Information Yonghui Zhai Yang Zhang Minghao Shang Lihua Pang Yaxin Ren 38 0 0 28 Apr 2025
A Survey of Graph Transformers: Architectures, Theories and Applications Chaohao Yuan Kangfei Zhao Ercan Engin Kuruoglu Liang Wang Tingyang Xu Wenbing Huang Deli Zhao Hong Cheng Yu Rong 57 4 0 23 Feb 2025
GrokFormer: Graph Fourier Kolmogorov-Arnold Transformers Guoguo Ai Guansong Pang Hezhe Qiao Yuan Gao Hui Yan 67 0 0 26 Nov 2024
Graph Expansion in Pruned Recurrent Neural Network Layers Preserve Performance Suryam Arnav Kalra Arindam Biswas Pabitra Mitra Biswajit Basu GNN 46 0 0 17 Mar 2024
Tensor-view Topological Graph Neural Network Tao Wen Elynn Chen Yuzhou Chen 39 9 0 22 Jan 2024
Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers K. Choromanski Shanda Li Valerii Likhosherstov Kumar Avinava Dubey Shengjie Luo Di He Yiming Yang Tamás Sarlós Thomas Weingarten Adrian Weller 37 8 0 03 Feb 2023
Mnemosyne: Learning to Train Transformers with Transformers Deepali Jain K. Choromanski Kumar Avinava Dubey Sumeet Singh Vikas Sindhwani Tingnan Zhang Jie Tan OffRL 39 9 0 02 Feb 2023
Recipe for a General, Powerful, Scalable Graph Transformer Ladislav Rampášek Mikhail Galkin Vijay Prakash Dwivedi A. Luu Guy Wolf Dominique Beaini 57 515 0 25 May 2022
Efficient Content-Based Sparse Attention with Routing Transformers Aurko Roy M. Saffar Ashish Vaswani David Grangier MoE 252 580 0 12 Mar 2020