v1v2v3 (latest)

Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi

22 January 2025

Papers citing "Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi"

21 / 21 papers shown

Title
Role of Delay in Brain Dynamics Yuval Meir Ofek Tevet Yarden Tzach Shiri Hodassman Ido Kanter AI4CE 50 2 0 15 Oct 2024
Towards a universal mechanism for successful deep learning Yuval Meir Yarden Tzach Shiri Hodassman Ofek Tevet Ido Kanter MLT 60 6 0 14 Sep 2023
The mechanism underlying successful deep learning Yarden Tzach Yuval Meir Ofek Tevet Ronit D. Gross Shiri Hodassman R. Vardi Ido Kanter 30 4 0 29 May 2023
A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? Chaoning Zhang Chenshuang Zhang Sheng Zheng Yu Qiao Chenghao Li ... Lik-Hang Lee Yang Yang Heng Tao Shen In So Kweon Choong Seon Hong 168 169 0 21 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.5K 14,748 0 15 Mar 2023
Learning on tree architectures outperforms a convolutional feedforward network Yuval Meir Itamar Ben-Noam Yarden Tzach Shiri Hodassman Ido Kanter AI4CE 25 6 0 21 Nov 2022
Do Vision Transformers See Like Convolutional Neural Networks? M. Raghu Thomas Unterthiner Simon Kornblith Chiyuan Zhang Alexey Dosovitskiy ViT 140 960 0 19 Aug 2021
Escaping the Big Data Paradigm with Compact Transformers Ali Hassani Steven Walton Nikhil Shah Abulikemu Abuduweili Jiachen Li Humphrey Shi 123 463 0 12 Apr 2021
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows Ze Liu Yutong Lin Yue Cao Han Hu Yixuan Wei Zheng Zhang Stephen Lin B. Guo ViT 467 21,566 0 25 Mar 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 391 1,574 0 27 Feb 2021
A Survey on Visual Transformer Kai Han Yunhe Wang Hanting Chen Xinghao Chen Jianyuan Guo ... Chunjing Xu Yixing Xu Zhaohui Yang Yiman Zhang Dacheng Tao ViT 209 2,245 0 23 Dec 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 676 41,483 0 22 Oct 2020
Reformer: The Efficient Transformer Nikita Kitaev Lukasz Kaiser Anselm Levskaya VLM 204 2,333 0 13 Jan 2020
On the Relationship between Self-Attention and Convolutional Layers Jean-Baptiste Cordonnier Andreas Loukas Martin Jaggi 116 535 0 08 Nov 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 686 24,557 0 26 Jul 2019
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks Mingxing Tan Quoc V. Le 3DV MedIm 164 18,193 0 28 May 2019
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 792 132,454 0 12 Jun 2017
Phase transitions in Restricted Boltzmann Machines with generic priors Adriano Barra G. Genovese Peter Sollich Daniele Tantari 45 61 0 09 Dec 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.2K 194,510 0 10 Dec 2015
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan Andrew Zisserman FAtt MDE 1.7K 100,529 0 04 Sep 2014
Deep Learning in Neural Networks: An Overview Jürgen Schmidhuber HAI 246 16,378 0 30 Apr 2014