v1v2v3 (latest)

Image Transformer

15 February 2018

Papers citing "Image Transformer"

50 / 837 papers shown

Title
Efficient conformer: Progressive downsampling and grouped attention for automatic speech recognition Maxime Burchi Valentin Vielzeuf 81 88 0 31 Aug 2021
Music Demixing Challenge 2021 Yuki Mitsufuji Giorgio Fabbro Stefan Uhlich Fabian-Robert Stöter Alexandre Défossez Minseok Kim Woosung Choi Chin-Yun Yu K. Cheuk 78 81 0 31 Aug 2021
Exploring and Improving Mobile Level Vision Transformers Pengguang Chen Yixin Chen Shu Liu Ming-Hsuan Yang Jiaya Jia ViT 104 4 0 30 Aug 2021
GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer Shuaicheng Li Qianggang Cao Lingbo Liu Kunlin Yang Shinan Liu Jun Hou Shuai Yi ViT 99 106 0 28 Aug 2021
Learning Inner-Group Relations on Point Clouds Haoxi Ran Wei Zhuo Jing Liu Li Lu 3DPC 111 61 0 27 Aug 2021
Shifted Chunk Transformer for Spatio-Temporal Representational Learning Xuefan Zha Wentao Zhu Tingxun Lv Sen Yang Ji Liu AI4TS ViT 92 27 0 26 Aug 2021
Greenformers: Improving Computation and Memory Efficiency in Transformer Models via Low-Rank Approximation Samuel Cahyawijaya 103 12 0 24 Aug 2021
StarVQA: Space-Time Attention for Video Quality Assessment Fengchuang Xing Yuan-Gen Wang Hanpin Wang Leida Li Guopu Zhu ViT 24 22 0 22 Aug 2021
ImageBART: Bidirectional Context with Multinomial Diffusion for Autoregressive Image Synthesis Patrick Esser Robin Rombach A. Blattmann Bjorn Ommer DiffM 117 162 0 19 Aug 2021
Do Vision Transformers See Like Convolutional Neural Networks? M. Raghu Thomas Unterthiner Simon Kornblith Chiyuan Zhang Alexey Dosovitskiy ViT 147 971 0 19 Aug 2021
A Machine Learning Surrogate Modeling Benchmark for Temperature Field Reconstruction of Heat-Source Systems Xiaoqian Chen Zhiqiang Gong Xiaoyu Zhao Weien Zhou Wen Yao AI4CE 139 22 0 17 Aug 2021
No-Reference Image Quality Assessment via Transformers, Relative Ranking, and Self-Consistency S. Golestaneh Saba Dadsetan Kris Kitani ViT 68 259 0 16 Aug 2021
Adaptive Multi-Resolution Attention with Linear Complexity Yao Zhang Yunpu Ma T. Seidl Volker Tresp 37 1 0 10 Aug 2021
SnowflakeNet: Point Cloud Completion by Snowflake Point Deconvolution with Skip-Transformer Peng Xiang Xin Wen Yu-Shen Liu Yan-Pei Cao Pengfei Wan Wen Zheng Zhizhong Han ViT 3DPC 132 232 0 10 Aug 2021
PSViT: Better Vision Transformer via Token Pooling and Attention Sharing Boyu Chen Peixia Li Baopu Li Chuming Li Lei Bai Chen Lin Ming Sun Junjie Yan Wanli Ouyang ViT 129 35 0 07 Aug 2021
FMMformer: Efficient and Flexible Transformer via Decomposed Near-field and Far-field Attention T. Nguyen Vai Suliafu Stanley J. Osher Long Chen Bao Wang 72 36 0 05 Aug 2021
Vision Transformer with Progressive Sampling Xiaoyu Yue Shuyang Sun Zhanghui Kuang Meng Wei Philip Torr Wayne Zhang Dahua Lin ViT 89 85 0 03 Aug 2021
Transformer-based Map Matching Model with Limited Ground-Truth Data using Transfer-Learning Approach Zhixiong Jin Jiwon Kim H. Yeo Seongjin Choi 63 30 0 01 Aug 2021
Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding Heng Zhao Qiufeng Wang Yew-Soon Ong ObjD 77 26 0 31 Jul 2021
Towards Continual Entity Learning in Language Models for Conversational Agents R. Gadde I. Bulyko KELM 76 1 0 30 Jul 2021
VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation Zeyu Hu Xuyang Bai Jiaxiang Shang Runze Zhang Jiayu Dong Xin Eric Wang Guangyuan Sun Hongbo Fu Chiew-Lan Tai 3DPC 97 7 0 29 Jul 2021
Convolutional Transformer based Dual Discriminator Generative Adversarial Networks for Video Anomaly Detection Xinyang Feng Dongjin Song Yuncong Chen Zhengzhang Chen Jingchao Ni Haifeng Chen ViT 89 75 0 29 Jul 2021
H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences Zhenhai Zhu Radu Soricut 167 42 0 25 Jul 2021
Generative Models for Security: Attacks, Defenses, and Opportunities L. A. Bauer Vincent Bindschaedler 112 4 0 21 Jul 2021
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries Jie Lei Tamara L. Berg Joey Tianyi Zhou ViT 75 67 0 20 Jul 2021
Generative Video Transformer: Can Objects be the Words? Yi-Fu Wu Jaesik Yoon Sungjin Ahn ViT 114 34 0 20 Jul 2021
FLAT: An Optimized Dataflow for Mitigating Attention Bottlenecks Sheng-Chun Kao Suvinay Subramanian Gaurav Agrawal Amir Yazdanbakhsh T. Krishna 133 64 0 13 Jul 2021
Combiner: Full Attention Transformer with Sparse Computation Cost Hongyu Ren H. Dai Zihang Dai Mengjiao Yang J. Leskovec Dale Schuurmans Bo Dai 171 80 0 12 Jul 2021
TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation Bingzhi Chen Yishu Liu Zheng Zhang Guangming Lu A. W. Kong MedIm ViT 166 225 0 12 Jul 2021
Learning Vision-Guided Quadrupedal Locomotion End-to-End with Cross-Modal Transformers Ruihan Yang Minghao Zhang Nicklas Hansen Huazhe Xu Xiaolong Wang OffRL 97 108 0 08 Jul 2021
Efficient Transformer for Direct Speech Translation Belen Alastruey Gerard I. Gállego Marta R. Costa-jussá 56 7 0 07 Jul 2021
Deep Learning for Micro-expression Recognition: A Survey Yante Li Jinsheng Wei Yang Liu Janne Kauttonen Guoying Zhao 133 67 0 06 Jul 2021
Vision Xformers: Efficient Attention for Image Classification Pranav Jeevan Amit Sethi ViT 65 13 0 05 Jul 2021
Long-Short Transformer: Efficient Transformers for Language and Vision Chen Zhu Ming-Yu Liu Chaowei Xiao Mohammad Shoeybi Tom Goldstein Anima Anandkumar Bryan Catanzaro ViT VLM 123 133 0 05 Jul 2021
TransformerFusion: Monocular RGB Scene Reconstruction using Transformers Aljavz Bovzivc Pablo Rodríguez Palafox Justus Thies Angela Dai Matthias Nießner ViT 99 138 0 05 Jul 2021
Test-Time Personalization with a Transformer for Human Pose Estimation Yizhuo Li Miao Hao Zonglin Di N. B. Gundavarapu Xiaolong Wang ViT 98 48 0 05 Jul 2021
Online Metro Origin-Destination Prediction via Heterogeneous Information Aggregation Lingbo Liu Yuying Zhu Guanbin Li Ziyi Wu Lei Bai Liang Lin AI4TS 108 37 0 02 Jul 2021
UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation Yunhe Gao Mu Zhou Dimitris N. Metaxas MedIm ViT 81 433 0 02 Jul 2021
Focal Self-attention for Local-Global Interactions in Vision Transformers Jianwei Yang Chunyuan Li Pengchuan Zhang Xiyang Dai Bin Xiao Lu Yuan Jianfeng Gao ViT 105 437 0 01 Jul 2021
Variational Diffusion Models Diederik P. Kingma Tim Salimans Ben Poole Jonathan Ho DiffM 234 1,146 0 01 Jul 2021
A Generative Model for Raw Audio Using Transformer Architectures Prateek Verma C. Chafe 84 29 0 30 Jun 2021
TENT: Tensorized Encoder Transformer for Temperature Forecasting Onur Bilgin Paweł Mąka Thomas Vergutz S. Mehrkanoon AI4TS 71 13 0 28 Jun 2021
Complexity-based partitioning of CSFI problem instances with Transformers Luca Benedetto P. Fantozzi L. Laura 13 0 0 28 Jun 2021
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training Hongwei Xue Yupan Huang Bei Liu Houwen Peng Jianlong Fu Houqiang Li Jiebo Luo 96 89 0 25 Jun 2021
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization Yi Tay Vinh Q. Tran Sebastian Ruder Jai Gupta Hyung Won Chung Dara Bahri Zhen Qin Simon Baumgartner Cong Yu Donald Metzler 175 162 0 23 Jun 2021
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding Shengjie Luo Shanda Li Tianle Cai Di He Dinglan Peng Shuxin Zheng Guolin Ke Liwei Wang Tie-Yan Liu 95 50 0 23 Jun 2021
Region-Aware Network: Model Human's Top-Down Visual Perception Mechanism for Crowd Counting Yuehai Chen Jing Yang Dong Zhang Kun Zhang Badong Chen S. Du 60 19 0 23 Jun 2021
LegoFormer: Transformers for Block-by-Block Multi-view 3D Reconstruction Farid Yagubbayli Yida Wang A. Tonioni Federico Tombari ViT 50 35 0 23 Jun 2021
ROPE: Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction Chen-Yu Lee Chun-Liang Li Chu Wang Renshen Wang Yasuhisa Fujii Siyang Qin Ashok Popat Tomas Pfister 57 26 0 21 Jun 2021
On Contrastive Representations of Stochastic Processes Emile Mathieu Adam Foster Yee Whye Teh BDL AI4TS 48 15 0 18 Jun 2021