v1v2v3 (latest)

Image Transformer

15 February 2018

Papers citing "Image Transformer"

50 / 837 papers shown

Title
ConTNet: Why not use convolution and transformer at the same time? Haotian Yan Zhe Li Weijian Li Changhu Wang Ming Wu Chuang Zhang ViT 94 77 0 27 Apr 2021
Dual Transformer for Point Cloud Analysis Xian-Feng Han Yi-Fei Jin Hui Cheng Guoqiang Xiao ViT 89 77 0 27 Apr 2021
All Tokens Matter: Token Labeling for Training Better Vision Transformers Zihang Jiang Qibin Hou Li-xin Yuan Daquan Zhou Yujun Shi Xiaojie Jin Anran Wang Jiashi Feng ViT 164 211 0 22 Apr 2021
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 345 513 0 20 Apr 2021
Improving Transformer-Kernel Ranking Model Using Conformer and Query Term Independence Bhaskar Mitra Sebastian Hofstatter Hamed Zamani Nick Craswell 81 8 0 19 Apr 2021
TransVG: End-to-End Visual Grounding with Transformers Jiajun Deng Zhengyuan Yang Tianlang Chen Wen-gang Zhou Houqiang Li ViT 111 348 0 17 Apr 2021
Points as Queries: Weakly Semi-supervised Object Detection by Points Liangyu Chen Tong Yang Xinming Zhang Wei Zhang Jian Sun 100 86 0 15 Apr 2021
UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models Hiroshi Sasaki Chris G. Willcocks T. Breckon DiffM 62 167 0 12 Apr 2021
Learning Position and Target Consistency for Memory-based Video Object Segmentation Liucheng Hu Peng Zhang Bang Zhang Pan Pan Yinghui Xu Rong Jin VOS 104 114 0 09 Apr 2021
X2CT-FLOW: Maximum a posteriori reconstruction using a progressive flow-based deep generative model for ultra sparse-view computed tomography in ultra low-dose protocols Hisaichi Shibata S. Hanaoka Y. Nomura Takahiro Nakao T. Takenaga Naoto Hayashi O. Abe MedIm 68 1 0 09 Apr 2021
Multiple Object Tracking with Correlation Learning Qiang Wang Yun Zheng Pan Pan Yinghui Xu VOT 87 151 0 08 Apr 2021
Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning Zhicheng Huang Zhaoyang Zeng Yupan Huang Bei Liu Dongmei Fu Jianlong Fu VLM ViT 160 274 0 07 Apr 2021
Interpreting A Pre-trained Model Is A Key For Model Architecture Optimization: A Case Study On Wav2Vec 2.0 Liu Chen Meysam Asgari 29 1 0 07 Apr 2021
Creativity and Machine Learning: A Survey Giorgio Franceschelli Mirco Musolesi VLM AI4CE 129 43 0 06 Apr 2021
Fourier Image Transformer T. Buchholz Florian Jug ViT 43 19 0 06 Apr 2021
Few-Shot Transformation of Common Actions into Time and Space Pengwan Yang Pascal Mettes Cees G. M. Snoek VLM ViT 53 10 0 06 Apr 2021
Measuring Linguistic Diversity During COVID-19 Artaches Ambartsoumian F. Popowich Benjamin Adams 79 35 0 03 Apr 2021
LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference Ben Graham Alaaeldin El-Nouby Hugo Touvron Pierre Stock Armand Joulin Hervé Jégou Matthijs Douze ViT 125 798 0 02 Apr 2021
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval Max Bain Arsha Nagrani Gül Varol Andrew Zisserman VGen 236 1,194 0 01 Apr 2021
Going deeper with Image Transformers Hugo Touvron Matthieu Cord Alexandre Sablayrolles Gabriel Synnaeve Hervé Jégou ViT 216 1,026 0 31 Mar 2021
Attention, please! A survey of Neural Attention Models in Deep Learning Alana de Santana Correia Esther Luna Colombini HAI 128 198 0 31 Mar 2021
Dual Contrastive Loss and Attention for GANs Ning Yu Guilin Liu Aysegül Dündar Andrew Tao Bryan Catanzaro Larry S. Davis Mario Fritz GAN 133 61 0 31 Mar 2021
PixelTransformer: Sample Conditioned Signal Generation Shubham Tulsiani Abhinav Gupta 76 17 0 29 Mar 2021
CvT: Introducing Convolutions to Vision Transformers Haiping Wu Bin Xiao Noel Codella Mengchen Liu Xiyang Dai Lu Yuan Lei Zhang ViT 168 1,929 0 29 Mar 2021
ViViT: A Video Vision Transformer Anurag Arnab Mostafa Dehghani G. Heigold Chen Sun Mario Lucic Cordelia Schmid ViT 242 2,178 0 29 Mar 2021
Transformer Tracking Xin Chen Bin Yan Jiawen Zhu Dong Wang Xiaoyun Yang Huchuan Lu ViT 83 967 0 29 Mar 2021
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding Pengchuan Zhang Xiyang Dai Jianwei Yang Bin Xiao Lu Yuan Lei Zhang Jianfeng Gao ViT 116 337 0 29 Mar 2021
Looking Beyond Two Frames: End-to-End Multi-Object Tracking Using Spatial and Temporal Transformers Tianyu Zhu Markus Hiller Mahsa Ehsanpour Rongkai Ma Tom Drummond Ian Reid Hamid Rezatofighi VOT 87 36 0 27 Mar 2021
Detection, growth quantification and malignancy prediction of pulmonary nodules using deep convolutional networks in follow-up CT scans Xavier Rafael-Palou A. Aubanell M. Ceresa Vicent J. Ribas Gemma Piella M. A. G. Ballester MedIm 64 3 0 26 Mar 2021
High-Fidelity Pluralistic Image Completion with Transformers Bo Liu Jingbo Zhang Dongdong Chen Jing Liao ViT 79 238 0 25 Mar 2021
An Image is Worth 16x16 Words, What is a Video Worth? Gilad Sharir Asaf Noy Lihi Zelnik-Manor ViT 104 125 0 25 Mar 2021
Vision Transformers for Dense Prediction René Ranftl Alexey Bochkovskiy V. Koltun ViT MDE 170 1,756 0 24 Mar 2021
Finetuning Pretrained Transformers into RNNs Jungo Kasai Hao Peng Yizhe Zhang Dani Yogatama Gabriel Ilharco Nikolaos Pappas Yi Mao Weizhu Chen Noah A. Smith 117 67 0 24 Mar 2021
Scaling Local Self-Attention for Parameter Efficient Visual Backbones Ashish Vaswani Prajit Ramachandran A. Srinivas Niki Parmar Blake A. Hechtman Jonathon Shlens 135 404 0 23 Mar 2021
BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised Neural Architecture Search Changlin Li Tao Tang Guangrun Wang Jiefeng Peng Bing Wang Xiaodan Liang Xiaojun Chang ViT 158 107 0 23 Mar 2021
Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking Ning Wang Wen-gang Zhou Jie Wang Houqiang Li ViT 94 535 0 22 Mar 2021
Attention-Based Multimodal Image Matching Aviad Moreshet Y. Keller ViT 27 0 0 20 Mar 2021
Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning Mandela Patrick Yuki M. Asano Bernie Huang Ishan Misra Florian Metze Joao Henriques Andrea Vedaldi AI4TS 100 35 0 18 Mar 2021
Spatial Dependency Networks: Neural Layers for Improved Generative Image Modeling DJordje Miladinović Aleksandar Stanić Stefan Bauer Jürgen Schmidhuber J. M. Buhmann DRL 76 9 0 16 Mar 2021
Involution: Inverting the Inherence of Convolution for Visual Recognition Duo Li Jie Hu Changhu Wang Xiangtai Li Qi She Lei Zhu Tong Zhang Qifeng Chen BDL 86 306 0 10 Mar 2021
Reformulating HOI Detection as Adaptive Set Prediction Mingfei Chen Yue Liao Si Liu Zhiyuan Chen Fei Wang Chao Qian 111 147 0 10 Mar 2021
QPIC: Query-Based Pairwise Human-Object Interaction Detection with Image-Wide Contextual Information Masato Tamura Hiroki Ohashi Tomoaki Yoshinaga 109 213 0 09 Mar 2021
Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models Sam Bond-Taylor Adam Leach Yang Long Chris G. Willcocks VLM TPM 193 511 0 08 Mar 2021
Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision Andrew Shin Masato Ishii T. Narihira 142 39 0 06 Mar 2021
SpecTr: Spectral Transformer for Hyperspectral Pathology Image Segmentation Boxiang Yun Yan Wang Jieneng Chen Huiyu Wang Wei Shen Qingli Li ViT MedIm 99 50 0 05 Mar 2021
Perceiver: General Perception with Iterative Attention Andrew Jaegle Felix Gimeno Andrew Brock Andrew Zisserman Oriol Vinyals João Carreira VLM ViT MDE 218 1,030 0 04 Mar 2021
CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation Yutong Xie Jianpeng Zhang Chunhua Shen Yong-quan Xia ViT MedIm 101 505 0 04 Mar 2021
Random Feature Attention Hao Peng Nikolaos Pappas Dani Yogatama Roy Schwartz Noah A. Smith Lingpeng Kong 148 362 0 03 Mar 2021
Generative Adversarial Transformers Drew A. Hudson C. L. Zitnick ViT 131 182 0 01 Mar 2021
Coordination Among Neural Modules Through a Shared Global Workspace Anirudh Goyal Aniket Didolkar Alex Lamb Kartikeya Badola Nan Rosemary Ke Nasim Rahaman Jonathan Binas Charles Blundell Michael C. Mozer Yoshua Bengio 228 99 0 01 Mar 2021