End-to-End Object Detection with Transformers

26 May 2020

Papers citing "End-to-End Object Detection with Transformers"

50 / 5,293 papers shown

Title
Single Image Super-Resolution Using Lightweight Networks Based on Swin Transformer Bolong Zhang Juan Chen Q. Wen ViT 46 1 0 20 Oct 2022
Cluster and Aggregate: Face Recognition with Large Probe Set Minchul Kim Feng Liu Anil Jain Xiaoming Liu CVBM 33 18 0 19 Oct 2022
Grounded Video Situation Recognition Zeeshan Khan C. V. Jawahar Makarand Tapaswi 42 13 0 19 Oct 2022
TOIST: Task Oriented Instance Segmentation Transformer with Noun-Pronoun Distillation Pengfei Li Beiwen Tian Yongliang Shi Xiaoxue Chen Hao Zhao Guyue Zhou Ya Zhang 44 20 0 19 Oct 2022
RLM-Tracking: Online Multi-Pedestrian Tracking Supported by Relative Location Mapping Kai Ren Chuanping Hu 29 2 0 19 Oct 2022
End-to-End Entity Detection with Proposer and Regressor Xueru Wen Changjian Zhou Haotian Tang Luguang Liang Yu-Gang Jiang Hong Qi 3DV 32 1 0 19 Oct 2022
A Tri-Layer Plugin to Improve Occluded Detection Guanqi Zhan Weidi Xie Andrew Zisserman 24 20 0 18 Oct 2022
Number-Adaptive Prototype Learning for 3D Point Cloud Semantic Segmentation Yangheng Zhao Jun Wang Xiaolong Li Yue Hu Ce Zhang Yanfeng Wang Siheng Chen 3DPC 30 11 0 18 Oct 2022
Decoupling Features in Hierarchical Propagation for Video Object Segmentation Zongxin Yang Yi Yang VOS 30 152 0 18 Oct 2022
1st Place Solutions for the UVO Challenge 2022 Jiajun Zhang Boyu Chen Zhilong Ji Jinfeng Bai Zonghai Hu 44 1 0 18 Oct 2022
Track Targets by Dense Spatio-Temporal Position Encoding Jinkun Cao Hao Wu Kris Kitani ViT 37 12 0 17 Oct 2022
Improving Object-centric Learning with Query Optimization Baoxiong Jia Yu Liu Siyuan Huang OCL 31 49 0 17 Oct 2022
A Novel Membership Inference Attack against Dynamic Neural Networks by Utilizing Policy Networks Information Pan Li Peizhuo Lv Shenchen Zhu Ruigang Liang Kai Chen AAML MU 32 0 0 17 Oct 2022
OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds Xiantong Zhao Yinan Han Shengjing Tian Jian Liu Xiuping Liu 3DPC 27 2 0 16 Oct 2022
Scratching Visual Transformer's Back with Uniform Attention Nam Hyeon-Woo Kim Yu-Ji Byeongho Heo Doonyoon Han Seong Joon Oh Tae-Hyun Oh 366 23 0 16 Oct 2022
Prediction Calibration for Generalized Few-shot Semantic Segmentation Zhihe Lu Sen He Da Li Yi-Zhe Song Tao Xiang ViT 35 23 0 15 Oct 2022
Neural Attentive Circuits Nasim Rahaman M. Weiß Francesco Locatello C. Pal Yoshua Bengio Bernhard Schölkopf Erran L. Li Nicolas Ballas 43 6 0 14 Oct 2022
MOVE: Unsupervised Movable Object Segmentation and Detection Adam Bielski Paolo Favaro OCL 28 20 0 14 Oct 2022
Convolutional Neural Networks: Basic Concepts and Applications in Manufacturing Shengli Jiang Shiyi Qin J. Pulsipher Victor M. Zavala AAML 30 5 0 14 Oct 2022
CAP: Correlation-Aware Pruning for Highly-Accurate Sparse Vision Models Denis Kuznedelev Eldar Kurtic Elias Frantar Dan Alistarh VLM ViT 32 11 0 14 Oct 2022
Vision Transformer Visualization: What Neurons Tell and How Neurons Behave? Van-Anh Nguyen Khanh Pham Dinh L. Vuong Thanh-Toan Do Quan Hung Tran Dinh Q. Phung Trung Le ViT 4 2 0 14 Oct 2022
Pareto-aware Neural Architecture Generation for Diverse Computational Budgets Yong Guo Yaofo Chen Yin Zheng Qi Chen P. Zhao Jian Chen Junzhou Huang Mingkui Tan 35 5 0 14 Oct 2022
TokenMixup: Efficient Attention-guided Token-level Data Augmentation for Transformers Hyeong Kyu Choi Joonmyung Choi Hyunwoo J. Kim ViT 38 35 0 14 Oct 2022
When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture Yi Mo Dongxian Wu Yifei Wang Yiwen Guo Yisen Wang ViT 50 53 0 14 Oct 2022
SWFormer: Sparse Window Transformer for 3D Object Detection in Point Clouds Pei Sun Mingxing Tan Weiyue Wang Chenxi Liu Fei Xia Zhaoqi Leng Drago Anguelov ViT 28 115 0 13 Oct 2022
Vision Transformers provably learn spatial structure Samy Jelassi Michael E. Sander Yuan-Fang Li ViT MLT 34 76 0 13 Oct 2022
How to Train Vision Transformer on Small-scale Datasets? Hanan Gani Muzammal Naseer Mohammad Yaqub ViT 27 51 0 13 Oct 2022
MAPL: Parameter-Efficient Adaptation of Unimodal Pre-Trained Models for Vision-Language Few-Shot Prompting Oscar Manas Pau Rodríguez López Saba Ahmadi Aida Nematzadeh Yash Goyal Aishwarya Agrawal VLM VPVLM 21 48 0 13 Oct 2022
Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors Vladimir E. Iashin Weidi Xie Esa Rahtu Andrew Zisserman 39 20 0 13 Oct 2022
ImaginaryNet: Learning Object Detectors without Real Images and Annotations Minheng Ni Zitong Huang Kai-Hua Feng W. Zuo VLM 19 15 0 13 Oct 2022
Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation Yuanwei Liu Nian Liu Xiwen Yao Junwei Han 33 61 0 13 Oct 2022
Exploring Contextual Representation and Multi-Modality for End-to-End Autonomous Driving Shoaib Azam Farzeen Munir Ville Kyrki M. Jeon Witold Pedrycz 67 1 0 13 Oct 2022
Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer Yanjing Li Sheng Xu Baochang Zhang Xianbin Cao Penglei Gao Guodong Guo MQ ViT 34 89 0 13 Oct 2022
Overlooked Video Classification in Weakly Supervised Video Anomaly Detection Weijun Tan Qi Yao Jingfeng Liu AI4TS 24 10 0 13 Oct 2022
Self-Guided Diffusion Models Vincent Tao Hu David W. Zhang Yuki M. Asano Gertjan J. Burghouts Cees G. M. Snoek 43 33 0 12 Oct 2022
Token-Label Alignment for Vision Transformers Han Xiao Wenzhao Zheng Zhengbiao Zhu Jie Zhou Jiwen Lu 26 4 0 12 Oct 2022
A Generalist Framework for Panoptic Segmentation of Images and Videos Ting-Li Chen Lala Li Saurabh Saxena Geoffrey E. Hinton David J. Fleet VGen MLLM 43 102 0 12 Oct 2022
AISFormer: Amodal Instance Segmentation with Transformer Minh-Triet Tran Khoa T. Vo Kashu Yamazaki Arthur F. A. Fernandes Michael Kidd Ngan Le 33 33 0 12 Oct 2022
FontTransformer: Few-shot High-resolution Chinese Glyph Image Synthesis via Stacked Transformers Yitian Liu Zheng Lian 48 14 0 12 Oct 2022
Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting Transformers Moritz Einfalt K. Ludwig Rainer Lienhart 37 44 0 12 Oct 2022
Text-Derived Knowledge Helps Vision: A Simple Cross-modal Distillation for Video-based Action Anticipation Sayontan Ghosh Tanvi Aggarwal Minh Hoai Niranjan Balasubramanian VLM 27 4 0 12 Oct 2022
Efficient Image Super-Resolution using Vast-Receptive-Field Attention Ling Zhou Haoming Cai Jinjin Gu Zheyu Li Yingqi Liu Xiangyu Chen Yu Qiao Chao Dong SupR 28 57 0 12 Oct 2022
Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets Zhiying Lu Hongtao Xie Chuanbin Liu Yongdong Zhang ViT 28 57 0 12 Oct 2022
SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric Models Ziyi Wu Nikita Dvornik Klaus Greff Thomas Kipf Animesh Garg OCL BDL 67 91 0 12 Oct 2022
SegViT: Semantic Segmentation with Plain Vision Transformers Bowen Zhang Zhi Tian Quan Tang Xiangxiang Chu Xiaolin K. Wei Chunhua Shen Yifan Liu ViT 24 136 0 12 Oct 2022
SaiT: Sparse Vision Transformers through Adaptive Token Pruning Ling Li D. Thorsley Joseph Hassoun ViT 29 17 0 11 Oct 2022
Point Transformer V2: Grouped Vector Attention and Partition-based Pooling Xiaoyang Wu Yixing Lao Li Jiang Xihui Liu Hengshuang Zhao 3DPC ViT 32 369 0 11 Oct 2022
Neural Shape Deformation Priors Jiapeng Tang Lev Markhasin Bi Wang Justus Thies Matthias Nießner 66 27 0 11 Oct 2022
OPERA: Omni-Supervised Representation Learning with Hierarchical Supervisions Cheng-Hao Wang Wenzhao Zheng Zhengbiao Zhu Jie Zhou Jiwen Lu SSL AI4TS 58 4 0 11 Oct 2022
Robust and Controllable Object-Centric Learning through Energy-based Models Ruixiang Zhang Tong Che Boris Ivanovic Renhao Wang Marco Pavone Yoshua Bengio Liam Paull OCL 41 8 0 11 Oct 2022