End-to-End Object Detection with Transformers

26 May 2020

Papers citing "End-to-End Object Detection with Transformers"

50 / 5,155 papers shown

Title
Infrared Small-Dim Target Detection with Transformer under Complex Backgrounds Fangcen Liu Chenqiang Gao Fangge Chen Deyu Meng W. Zuo Xinbo Gao ViT 36 37 0 29 Sep 2021
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients Oliver Scheel Luca Bergamini Maciej Wołczyk Bla.zej Osiñski Peter Ondruska 37 104 0 27 Sep 2021
End-to-End Dense Video Grounding via Parallel Regression Fengyuan Shi Weilin Huang Limin Wang 39 10 0 23 Sep 2021
KOHTD: Kazakh Offline Handwritten Text Dataset N. Toiganbayeva M. Kasem Galymzhan Abdimanap K. Bostanbekov Abdelrahman Abdallah Anel N. Alimova D. Nurseitov 16 23 0 22 Sep 2021
Natural Language Video Localization with Learnable Moment Proposals Shaoning Xiao Long Chen Jian Shao Yueting Zhuang Jun Xiao 14 43 0 22 Sep 2021
LOTR: Face Landmark Localization Using Localization Transformer Ukrit Watchareeruetai Benjaphan Sommanna Sanjana Jain Pavit Noinongyao Ankush Ganguly Aubin Samacoits Samuel W. F. Earp Nakarin Sritrakool ViT 25 12 0 21 Sep 2021
Survey: Transformer based Video-Language Pre-training Ludan Ruan Qin Jin VLM ViT 72 44 0 21 Sep 2021
Trust Your Robots! Predictive Uncertainty Estimation of Neural Networks with Sparse Gaussian Processes Jongseo Lee Jianxiang Feng Matthias Humt M. Müller Rudolph Triebel UQCV 46 21 0 20 Sep 2021
TANet: A new Paradigm for Global Face Super-resolution via Transformer-CNN Aggregation Network Yuan-Zheng Wang Tao Lu Yanduo Zhang Junjun Jiang Jiaming Wang Zhongyuan Wang Jiayi Ma ViT 17 10 0 16 Sep 2021
An End-to-End Transformer Model for 3D Object Detection Ishan Misra Rohit Girdhar Armand Joulin 3DPC ViT 39 470 0 16 Sep 2021
Pose Transformers (POTR): Human Motion Prediction with Non-Autoregressive Transformers Ángel Martínez-González M. Villamizar J. Odobez ViT 11 69 0 15 Sep 2021
Anchor DETR: Query Design for Transformer-Based Object Detection Yingming Wang X. Zhang Tong Yang Jian-jun Sun ViT 8 53 0 15 Sep 2021
PnP-DETR: Towards Efficient Visual Analysis with Transformers Tao Wang Li Yuan Yunpeng Chen Jiashi Feng Shuicheng Yan ViT 24 82 0 15 Sep 2021
xGQA: Cross-Lingual Visual Question Answering Jonas Pfeiffer Gregor Geigle Aishwarya Kamath Jan-Martin O. Steitz Stefan Roth Ivan Vulić Iryna Gurevych 28 56 0 13 Sep 2021
Mutual Supervision for Dense Object Detection Ziteng Gao Limin Wang Gangshan Wu 55 29 0 13 Sep 2021
TxT: Crossmodal End-to-End Learning with Transformers Jan-Martin O. Steitz Jonas Pfeiffer Iryna Gurevych Stefan Roth LRM 16 2 0 09 Sep 2021
nnFormer: Interleaved Transformer for Volumetric Segmentation Hong-Yu Zhou J. Guo Yinghao Zhang Lequan Yu Liansheng Wang Yizhou Yu ViT MedIm 27 307 0 07 Sep 2021
FuseFormer: Fusing Fine-Grained Information in Transformers for Video Inpainting R. Liu Hanming Deng Yangyi Huang Xiaoyu Shi Lewei Lu Wenxiu Sun Xiaogang Wang Jifeng Dai Hongsheng Li ViT 22 124 0 07 Sep 2021
The Animation Transformer: Visual Correspondence via Segment Matching Evan Casey V. Pérez Zhuoru Li Harry Teitelman Nick Boyajian Tim Pulver Mike Manh William Grisaitis ViT 14 30 0 06 Sep 2021
Ultra-high Resolution Image Segmentation via Locality-aware Context Fusion and Alternating Local Enhancement Wenxi Liu Qi Li Xin Lin Weixiang Yang Shengfeng He Yuanlong Yu 29 7 0 06 Sep 2021
3D Human Texture Estimation from a Single Image with Transformers Xiangyu Xu Chen Change Loy 3DH 27 39 0 06 Sep 2021
Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose Estimation Ziniu Wan Zhengjia Li Maoqing Tian Jianbo Liu Shuai Yi Hongsheng Li 3DH 35 80 0 06 Sep 2021
Multi-Modal Zero-Shot Sign Language Recognition R. Rastgoo Kourosh Kiani Sergio Escalera Mohammad Sabokrou SLR 19 5 0 02 Sep 2021
Benchmarking the Robustness of Instance Segmentation Models Said Fahri Altindis Yusuf Dalva Hamza Pehlivan Aysegül Dündar VLM OOD 29 12 0 02 Sep 2021
Discriminative Semantic Feature Pyramid Network with Guided Anchoring for Logo Detection Baisong Zhang Awudu Karim Jing Wang Sujuan Hou Qiang Hou Yuanjie Zheng Weikuan Jia 13 6 0 31 Aug 2021
GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer Shuaicheng Li Qianggang Cao Lingbo Liu Kunlin Yang Shinan Liu Jun Hou Shuai Yi ViT 34 103 0 28 Aug 2021
Learning Inner-Group Relations on Point Clouds Haoxi Ran Wei Zhuo J. Liu Li Lu 3DPC 37 59 0 27 Aug 2021
Semantic-Based Self-Critical Training For Question Generation Loïc Kwate Dassi Kwate Dassi 18 0 0 26 Aug 2021
SASRA: Semantically-aware Spatio-temporal Reasoning Agent for Vision-and-Language Navigation in Continuous Environments Muhammad Zubair Irshad Niluthpol Chowdhury Mithun Zachary Seymour Han-Pang Chiu S. Samarasekera Rakesh Kumar LM&Ro 18 49 0 26 Aug 2021
A Comparison of Deep Saliency Map Generators on Multispectral Data in Object Detection Jens Bayer David Munch Michael Arens 3DPC 30 3 0 26 Aug 2021
TransFER: Learning Relation-aware Facial Expression Representations with Transformers Fanglei Xue Qiangchang Wang G. Guo ViT 39 183 0 25 Aug 2021
Exploring Simple 3D Multi-Object Tracking for Autonomous Driving Chenxu Luo Xiaodong Yang Alan Yuille VOT 3DPC 18 80 0 23 Aug 2021
SwinIR: Image Restoration Using Swin Transformer Jingyun Liang Jie Cao Guolei Sun K. Zhang Luc Van Gool Radu Timofte ViT 45 2,806 0 23 Aug 2021
ODAM: Object Detection, Association, and Mapping using Posed RGB Video Kejie Li Daniel DeTone Steven Chen Minh Vo Ian Reid Hamid Rezatofighi Chris Sweeney Julian Straub Richard A. Newcombe 29 26 0 23 Aug 2021
Deep neural networks approach to microbial colony detection -- a comparative analysis Sylwia Majchrowska J. Pawlowski Natalia Czerep Aleksander Górecki Jakub Kuciñski Tomasz Golan 13 5 0 23 Aug 2021
From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network Yuxin Wang Hongtao Xie Shancheng Fang Jing Wang Shenggao Zhu Yongdong Zhang VLM 52 152 0 22 Aug 2021
MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition Jiawei Chen C. Ho ViT 26 77 0 20 Aug 2021
Trans4Trans: Efficient Transformer for Transparent Object and Semantic Scene Segmentation in Real-World Navigation Assistance Jiaming Zhang Kailun Yang Angela Constantinescu Kunyu Peng Karin Muller Rainer Stiefelhagen ViT 33 69 0 20 Aug 2021
Do Vision Transformers See Like Convolutional Neural Networks? M. Raghu Thomas Unterthiner Simon Kornblith Chiyuan Zhang Alexey Dosovitskiy ViT 52 924 0 19 Aug 2021
Video Relation Detection via Tracklet based Visual Transformer Kaifeng Gao Long Chen Yifeng Huang Jun Xiao ViT 27 29 0 19 Aug 2021
End-to-End Dense Video Captioning with Parallel Decoding Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo 3DV 47 179 0 17 Aug 2021
WikiChurches: A Fine-Grained Dataset of Architectural Styles with Real-World Challenges Björn Barz Joachim Denzler 36 7 0 16 Aug 2021
Track without Appearance: Learn Box and Tracklet Embedding with Local and Global Motion Patterns for Vehicle Tracking Gaoang Wang Renshu Gu Zuozhu Liu Weijie Hu Mingli Song Jenq-Neng Hwang VOT 24 50 0 13 Aug 2021
MUSIQ: Multi-scale Image Quality Transformer Junjie Ke Qifei Wang Yilin Wang P. Milanfar Feng Yang 165 624 0 12 Aug 2021
TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation Jinyu Yang Jingjing Liu N. Xu Junzhou Huang 27 125 0 12 Aug 2021
Mobile-Former: Bridging MobileNet and Transformer Yinpeng Chen Xiyang Dai Dongdong Chen Mengchen Liu Xiaoyi Dong Lu Yuan Zicheng Liu ViT 177 476 0 12 Aug 2021
Progressive Coordinate Transforms for Monocular 3D Object Detection Li Wang Li Zhang Yi Zhu Zhi-Li Zhang T. He Mu Li Xiangyang Xue 3DPC 22 81 0 12 Aug 2021
Vision-Language Transformer and Query Generation for Referring Segmentation Henghui Ding Chang-rui Liu Suchen Wang Xudong Jiang 40 251 0 12 Aug 2021
Video Transformer for Deepfake Detection with Incremental Learning Sohail Ahmed Khan Hang Dai ViT 16 62 0 11 Aug 2021
Mining the Benefits of Two-stage and One-stage HOI Detection Aixi Zhang Yue Liao Si Liu Miao Lu Yongliang Wang Chen Gao Xiaobo Li 24 145 0 11 Aug 2021