End-to-End Object Detection with Transformers

26 May 2020

Papers citing "End-to-End Object Detection with Transformers"

50 / 5,279 papers shown

Title
TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism for a Deep Segmentation Model Reza Azad Mohammad T. Al-Antary Moein Heidari Dorit Merhof ViT MedIm 34 73 0 27 Jul 2022
SiRi: A Simple Selective Retraining Mechanism for Transformer-based Visual Grounding Mengxue Qu Yu Wu Wu Liu Qiqi Gong Xiaodan Liang Olga Russakovsky Yao Zhao Yunchao Wei ObjD 19 22 0 27 Jul 2022
Convolutional Embedding Makes Hierarchical Vision Transformer Stronger Cong Wang Hongmin Xu Xiong Zhang Li Wang Zhitong Zheng Haifeng Liu ViT 25 21 0 27 Jul 2022
NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation Lin Li Jun Xiao Hanrong Shi Hanwang Zhang Yi Yang Wen Liu Long Chen 31 22 0 27 Jul 2022
Is Attention All That NeRF Needs? T. MukundVarma Peihao Wang Xuxi Chen Tianlong Chen Subhashini Venugopalan Zhangyang Wang ViT 43 107 0 27 Jul 2022
Group DETR: Fast DETR Training with Group-Wise One-to-Many Assignment Qiang Chen Xiaokang Chen Jian Wang Shan Zhang Kun Yao Haocheng Feng Junyu Han Errui Ding Gang Zeng Jingdong Wang ViT 51 120 0 26 Jul 2022
DETRs with Hybrid Matching Ding Jia Yuhui Yuan Hao He Xiao-pei Wu Haojun Yu Weihong Lin Lei-huan Sun Chao Zhang Hanhua Hu 32 182 0 26 Jul 2022
TransFiner: A Full-Scale Refinement Approach for Multiple Object Tracking Bin Sun VOT 23 0 0 26 Jul 2022
Contextual Text Block Detection towards Scene Text Understanding Chuhui Xue Jiaxing Huang Shijian Lu Changhu Wang Song Bai 32 7 0 26 Jul 2022
A Guide to Image and Video based Small Object Detection using Deep Learning : Case Study of Maritime Surveillance Aref Miri Rekavandi Lian Xu F. Boussaïd A. Seghouane Stephen Hoefs Bennamoun ObjD 28 17 0 26 Jul 2022
Graph Neural Network and Spatiotemporal Transformer Attention for 3D Video Object Detection from Point Clouds Junbo Yin Jianbing Shen Xin Gao David J. Crandall Ruigang Yang 3DPC ViT 43 59 0 26 Jul 2022
Multi-Attention Network for Compressed Video Referring Object Segmentation Weidong Chen Dexiang Hong Yuankai Qi Zhenjun Han Shuhui Wang Laiyun Qing Qingming Huang Guorong Li VOS 20 36 0 26 Jul 2022
Self-Distilled Vision Transformer for Domain Generalization M. Sultana Muzammal Naseer Muhammad Haris Khan Salman Khan Fahad Shahbaz Khan ViT 16 29 0 25 Jul 2022
Domain Decorrelation with Potential Energy Ranking Sen Pei Jiaxi Sun Richard Yi Da Xu Shiming Xiang Gaofeng Meng OOD 29 4 0 25 Jul 2022
3D Siamese Transformer Network for Single Object Tracking on Point Clouds Le Hui Lingpeng Wang Ling-Yu Tang Kaihao Lan Jin Xie Jian Yang ViT 3DPC 31 60 0 25 Jul 2022
TransCL: Transformer Makes Strong and Flexible Compressive Learning Chong Mou Jian Zhang 19 24 0 25 Jul 2022
Jigsaw-ViT: Learning Jigsaw Puzzles in Vision Transformer Yingyi Chen Xiaoke Shen Yahui Liu Qinghua Tao Johan A. K. Suykens AAML ViT 36 22 0 25 Jul 2022
SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions Ansh Mittal Shuvam Ghosal Rishibha Bansal 61 3 0 24 Jul 2022
Improved Super Resolution of MR Images Using CNNs and Vision Transformers Dwarikanath Mahapatra SupR ViT MedIm 32 5 0 24 Jul 2022
HPS-Det: Dynamic Sample Assignment with Hyper-Parameter Search for Object Detection Ji Liu Dong Li Zekun Li Han Liu Wenjing Ke Lu Tian Yi Shan 20 0 0 23 Jul 2022
PanGu-Coder: Program Synthesis with Function-Level Language Modeling Fenia Christopoulou Gerasimos Lampouras Milan Gritta Guchun Zhang Yinpeng Guo ... Guangtai Liang Jia Wei Xin Jiang Qianxiang Wang Qun Liu ELM SyDa ALM 50 74 0 22 Jul 2022
Panoptic Scene Graph Generation Jingkang Yang Yi Zhe Ang Zujin Guo Kaiyang Zhou Wayne Zhang Ziwei Liu 57 106 0 22 Jul 2022
Rethinking Few-Shot Object Detection on a Multi-Domain Benchmark Kibok Lee Hao Yang Satyaki Chakraborty Zhaowei Cai Gurumurthy Swaminathan Avinash Ravichandran Onkar Dabeer 37 21 0 22 Jul 2022
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Adria Caelles Tim Meinhardt Guillem Brasó Laura Leal-Taixé ViT 28 9 0 22 Jul 2022
Few-shot Object Counting and Detection Trung Quoc Nguyen Chau Pham Khoi Duc Minh Nguyen Minh Hoai 19 48 0 22 Jul 2022
QueryProp: Object Query Propagation for High-Performance Video Object Detection Fei He Naiyu Gao Jian Jia Xin Zhao Kaiqi Huang 42 27 0 22 Jul 2022
Transformer with Implicit Edges for Particle-based Physics Simulation Yidi Shao Chen Change Loy Bo Dai 21 15 0 22 Jul 2022
Geodesic-Former: a Geodesic-Guided Few-shot 3D Point Cloud Instance Segmenter T. Ngo Khoi Duc Minh Nguyen 3DPC 24 4 0 22 Jul 2022
Focused Decoding Enables 3D Anatomical Detection by Transformers Bastian Wittmann Fernando Navarro Suprosanna Shit Bjoern H. Menze ViT MedIm 21 8 0 21 Jul 2022
TinyViT: Fast Pretraining Distillation for Small Vision Transformers Kan Wu Jinnian Zhang Houwen Peng Mengchen Liu Bin Xiao Jianlong Fu Lu Yuan ViT 21 248 0 21 Jul 2022
Generalizable Patch-Based Neural Rendering M. Suhail Carlos Esteves Leonid Sigal A. Makadia 46 103 0 21 Jul 2022
In Defense of Online Models for Video Instance Segmentation Junfeng Wu Qihao Liu Yi Jiang S. Bai Alan Yuille Xiang Bai 32 108 0 21 Jul 2022
Boosting 3D Object Detection via Object-Focused Image Fusion Hao-Hsiang Yang Chen Shi Yihong Chen Liwei Wang 3DPC 26 24 0 21 Jul 2022
Magic ELF: Image Deraining Meets Association Learning and Transformer Kui Jiang Zhongyuan Wang Chen Chen Zheng Wang Laizhong Cui Chia-Wen Lin ViT 22 63 0 21 Jul 2022
Pose for Everything: Towards Category-Agnostic Pose Estimation Lumin Xu Sheng Jin Wang Zeng Wentao Liu Chao Qian Wanli Ouyang Ping Luo Xiaogang Wang 10 36 0 21 Jul 2022
Temporal Saliency Query Network for Efficient Video Recognition Boyang Xia Zhihao Wang Wenhao Wu Haoran Wang Jungong Han 51 15 0 21 Jul 2022
AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection Zehui Chen Zhenyu Li Shiquan Zhang Liangji Fang Qinhong Jiang Feng Zhao 3DPC 37 80 0 21 Jul 2022
MeshMAE: Masked Autoencoders for 3D Mesh Data Analysis Yaqian Liang Shanshan Zhao Baosheng Yu Jing Zhang Fazhi He ViT 36 37 0 20 Jul 2022
Is an Object-Centric Video Representation Beneficial for Transfer? Chuhan Zhang Ankush Gupta Andrew Zisserman ViT 39 27 0 20 Jul 2022
Locality Guidance for Improving Vision Transformers on Tiny Datasets Kehan Li Runyi Yu Zhennan Wang Li-ming Yuan Guoli Song Jie Chen ViT 37 44 0 20 Jul 2022
NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds Weiwei Sun Daniel Rebain Renjie Liao V. Tankovich S. Yazdani K. M. Yi Andrea Tagliasacchi 3DPC 20 13 0 20 Jul 2022
ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network Nikolaos Gkalelis Dimitrios Daskalakis Vasileios Mezaris 21 10 0 20 Jul 2022
FaceFormer: Scale-aware Blind Face Restoration with Transformers Aijin Li Gengyan Li Lei Sun Xintao Wang CVBM 46 7 0 20 Jul 2022
Rectifying Open-set Object Detection: A Taxonomy, Practical Applications, and Proper Evaluation Yusuke Hosoya Masanori Suganuma Takayuki Okatani ObjD 38 2 0 20 Jul 2022
Learning Sequence Representations by Non-local Recurrent Neural Memory Wenjie Pei Xin Feng Canmiao Fu Qi Cao Guangming Lu Yu-Wing Tai AI4TS 32 1 0 20 Jul 2022
GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features Van-Quang Nguyen Masanori Suganuma Takayuki Okatani ViT 41 106 0 20 Jul 2022
AiATrack: Attention in Attention for Transformer Visual Tracking Shenyuan Gao Chunluan Zhou Chao Ma Xing Wang Junsong Yuan ViT 25 223 0 20 Jul 2022
Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification Renrui Zhang Zhang Wei Rongyao Fang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 40 299 0 19 Jul 2022
Vision Transformers: From Semantic Segmentation to Dense Prediction Li Zhang Jiachen Lu Sixiao Zheng Xinxuan Zhao Xiatian Zhu Yanwei Fu Tao Xiang Jianfeng Feng Philip H. S. Torr ViT 32 7 0 19 Jul 2022
Action Quality Assessment with Temporal Parsing Transformer Yang Bai Desen Zhou Songyang Zhang Jian Wang Errui Ding Yu Guan Yang Long Jingdong Wang ViT 29 39 0 19 Jul 2022