Traveling Words: A Geometric Interpretation of Transformers

13 September 2023

Papers citing "Traveling Words: A Geometric Interpretation of Transformers"

8 / 8 papers shown

Title
Symbolic Discovery of Optimization Algorithms Xiangning Chen Chen Liang Da Huang Esteban Real Kaiyuan Wang ... Xuanyi Dong Thang Luong Cho-Jui Hsieh Yifeng Lu Quoc V. Le 102 367 0 13 Feb 2023
Constitutional AI: Harmlessness from AI Feedback Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell John Kernion ... Dario Amodei Nicholas Joseph Sam McCandlish Tom B. Brown Jared Kaplan SyDa MoMe 138 1,552 0 15 Dec 2022
LaMDA: Language Models for Dialog Applications R. Thoppilan Daniel De Freitas Jamie Hall Noam M. Shazeer Apoorv Kulshreshtha ... Blaise Aguera-Arcas Claire Cui M. Croak Ed H. Chi Quoc Le ALM 83 1,577 0 20 Jan 2022
Transformer Feed-Forward Layers Are Key-Value Memories Mor Geva R. Schuster Jonathan Berant Omer Levy KELM 99 792 0 29 Dec 2020
On Layer Normalization in the Transformer Architecture Ruibin Xiong Yunchang Yang Di He Kai Zheng Shuxin Zheng Chen Xing Huishuai Zhang Yanyan Lan Liwei Wang Tie-Yan Liu AI4CE 74 973 0 12 Feb 2020
UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction Leland McInnes John Healy James Melville 86 9,312 0 09 Feb 2018
Residual Connections Encourage Iterative Inference Stanislaw Jastrzebski Devansh Arpit Nicolas Ballas Vikas Verma Tong Che Yoshua Bengio 35 155 0 13 Oct 2017
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 187 10,412 0 21 Jul 2016