Title
WaveMix: Resource-efficient Token Mixing for Images Pranav Jeevan A. Sethi 17 10 0 07 Mar 2022
Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer Greg Yang J. E. Hu Igor Babuschkin Szymon Sidor Xiaodong Liu David Farhi Nick Ryder J. Pachocki Weizhu Chen Jianfeng Gao 26 148 0 07 Mar 2022
FloorGenT: Generative Vector Graphic Model of Floor Plans for Robotics Ludvig Ericson Patric Jensfelt 3DV 14 2 0 07 Mar 2022
Interpretable part-whole hierarchies and conceptual-semantic relationships in neural networks Nicola Garau N. Bisagno Zeno Sambugaro Nicola Conci 32 21 0 07 Mar 2022
Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept Recognition Peipei Zhu Tianlin Li Yong Luo Zhenglong Sun Wei-Shi Zheng Yaowei Wang Chia-Ju Chen 30 12 0 07 Mar 2022
AutoMO-Mixer: An automated multi-objective Mixer model for balanced, safe and robust prediction in medicine Xinyu Chen Jiahuan Lv Dehua Feng X. Mou L. Bai Shu Zhang Zhiguo Zhou 24 1 0 04 Mar 2022
Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Semantic Segmentation Jiaming Zhang Kailun Yang Chaoxiang Ma Simon Reiß Kunyu Peng Rainer Stiefelhagen ViT 35 74 0 02 Mar 2022
DCT-Former: Efficient Self-Attention with Discrete Cosine Transform Carmelo Scribano Giorgia Franchini M. Prato Marko Bertogna 18 21 0 02 Mar 2022
Split Semantic Detection in Sandplay Images Xiaokun Feng Xiaotang Chen Jian Jia Kaiqi Huang 27 0 0 02 Mar 2022
Self-Supervised Vision Transformers Learn Visual Concepts in Histopathology Richard J. Chen Rahul G. Krishnan MedIm ViT 30 84 0 01 Mar 2022
Understanding Contrastive Learning Requires Incorporating Inductive Biases Nikunj Saunshi Jordan T. Ash Surbhi Goel Dipendra Kumar Misra Cyril Zhang Sanjeev Arora Sham Kakade A. Krishnamurthy SSL 27 109 0 28 Feb 2022
Filter-enhanced MLP is All You Need for Sequential Recommendation Kun Zhou Hui Yu Wayne Xin Zhao Ji-Rong Wen 85 254 0 28 Feb 2022
TransKD: Transformer Knowledge Distillation for Efficient Semantic Segmentation R. Liu Kailun Yang Alina Roitberg Jiaming Zhang Kunyu Peng Huayao Liu Yaonan Wang Rainer Stiefelhagen ViT 47 36 0 27 Feb 2022
Content-Variant Reference Image Quality Assessment via Knowledge Distillation Guanghao Yin Wei Wang Zehuan Yuan Chuchu Han Wei Ji Shouqian Sun Changhu Wang 35 33 0 26 Feb 2022
Transformers in Medical Image Analysis: A Review Kelei He Chen Gan Zhuoyuan Li I. Rekik Zihao Yin Wen Ji Yang Gao Qian Wang Junfeng Zhang D. Shen ViT MedIm 28 255 0 24 Feb 2022
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 192 501 0 22 Feb 2022
Hilbert Flattening: a Locality-Preserving Matrix Unfolding Method for Visual Discrimination Qingsong Zhao Shuguang Dou Zhipeng Zhou Yangguang Li Yin Wang Yu Qiao Cairong Zhao 22 3 0 21 Feb 2022
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond Qiming Zhang Yufei Xu Jing Zhang Dacheng Tao ViT 33 229 0 21 Feb 2022
Visual Attention Network Meng-Hao Guo Chengrou Lu Zheng-Ning Liu Ming-Ming Cheng Shiyong Hu ViT VLM 24 637 0 20 Feb 2022
MLP-ASR: Sequence-length agnostic all-MLP architectures for speech recognition Jin Sakuma Tatsuya Komatsu Robin Scheibler 21 6 0 17 Feb 2022
Taking a Step Back with KCal: Multi-Class Kernel-Based Calibration for Deep Neural Networks Zhen Lin Shubhendu Trivedi Jimeng Sun 35 5 0 15 Feb 2022
CATs++: Boosting Cost Aggregation with Convolutions and Transformers Seokju Cho Sunghwan Hong Seung Wook Kim ViT 27 34 0 14 Feb 2022
How Do Vision Transformers Work? Namuk Park Songkuk Kim ViT 47 465 0 14 Feb 2022
Mixing and Shifting: Exploiting Global and Local Dependencies in Vision MLPs Huangjie Zheng Pengcheng He Weizhu Chen Mingyuan Zhou 22 14 0 14 Feb 2022
BViT: Broad Attention based Vision Transformer Nannan Li Yaran Chen Weifan Li Zixiang Ding Dong Zhao ViT 38 23 0 13 Feb 2022
A Modern Self-Referential Weight Matrix That Learns to Modify Itself Kazuki Irie Imanol Schlag Róbert Csordás Jürgen Schmidhuber 14 26 0 11 Feb 2022
Universal Hopfield Networks: A General Framework for Single-Shot Associative Memory Models Beren Millidge Tommaso Salvatori Yuhang Song Thomas Lukasiewicz Rafal Bogacz VLM 24 52 0 09 Feb 2022
pNLP-Mixer: an Efficient all-MLP Architecture for Language Francesco Fusco Damian Pascual Peter W. J. Staar Diego Antognini 37 29 0 09 Feb 2022
Calibrated Learning to Defer with One-vs-All Classifiers Rajeev Verma Eric Nalisnick 21 42 0 08 Feb 2022
Towards an Analytical Definition of Sufficient Data Adam Byerly T. Kalganova 27 4 0 07 Feb 2022
Image-to-Image MLP-mixer for Image Reconstruction Youssef Mansour Kang Lin Reinhard Heckel SupR 31 15 0 04 Feb 2022
Keyword localisation in untranscribed speech using visually grounded speech models Kayode Olaleye Dan Oneaţă Herman Kamper 32 7 0 02 Feb 2022
AtmoDist: Self-supervised Representation Learning for Atmospheric Dynamics Sebastian Hoffmann C. Lessig AI4Cl 24 8 0 02 Feb 2022
When Do Flat Minima Optimizers Work? Jean Kaddour Linqing Liu Ricardo M. A. Silva Matt J. Kusner ODL 24 58 0 01 Feb 2022
Plug-In Inversion: Model-Agnostic Inversion for Vision with Data Augmentations Amin Ghiasi Hamid Kazemi Steven Reich Chen Zhu Micah Goldblum Tom Goldstein 48 15 0 31 Jan 2022
DynaMixer: A Vision MLP Architecture with Dynamic Mixing Ziyu Wang Wenhao Jiang Yiming Zhu Li Yuan Yibing Song Wei Liu 43 44 0 28 Jan 2022
When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism Guangting Wang Yucheng Zhao Chuanxin Tang Chong Luo Wenjun Zeng 22 68 0 26 Jan 2022
AggMatch: Aggregating Pseudo Labels for Semi-Supervised Learning Jiwon Kim Kwang-seok Ryoo Gyuseong Lee Seokju Cho Junyoung Seo Daehwan Kim Hansang Cho Seung Wook Kim 32 1 0 25 Jan 2022
Convolutional Xformers for Vision Pranav Jeevan Amit Sethi ViT 55 12 0 25 Jan 2022
Patches Are All You Need? Asher Trockman J. Zico Kolter ViT 225 402 0 24 Jan 2022
Learning to Minimize the Remainder in Supervised Learning Yan Luo Yongkang Wong Mohan S. Kankanhalli Qi Zhao 46 1 0 23 Jan 2022
AiTLAS: Artificial Intelligence Toolbox for Earth Observation I. Dimitrovski Ivan Kitanovski P. Panov Nikola Simidjievski D. Kocev 32 10 0 21 Jan 2022
Continual Transformers: Redundancy-Free Attention for Online Inference Lukas Hedegaard Arian Bakhtiarnia Alexandros Iosifidis CLL 27 11 0 17 Jan 2022
Video Transformers: A Survey Javier Selva A. S. Johansen Sergio Escalera Kamal Nasrollahi T. Moeslund Albert Clapés ViT 22 103 0 16 Jan 2022
ConvMixer: Feature Interactive Convolution with Curriculum Learning for Small Footprint and Noisy Far-field Keyword Spotting Dianwen Ng Yunqi Chen Biao Tian Qiang Fu Chng Eng Siong 24 46 0 15 Jan 2022
Hand-Object Interaction Reasoning Jian Ma Dima Damen 19 7 0 13 Jan 2022
MAXIM: Multi-Axis MLP for Image Processing Zhengzhong Tu Hossein Talebi Han Zhang Feng Yang P. Milanfar A. Bovik Yinxiao Li 39 463 0 09 Jan 2022
Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention Haotian Yan Chuang Zhang Ming Wu ViT 30 63 0 05 Jan 2022
PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid Architecture Kai Han Jianyuan Guo Yehui Tang Yunhe Wang ViT 34 22 0 04 Jan 2022
Facial-Sketch Synthesis: A New Challenge Deng-Ping Fan Ziling Huang Peng Zheng Hong Liu Xue Qin Luc Van Gool CVBM 30 34 0 31 Dec 2021