End-to-End Object Detection with Transformers

26 May 2020

Papers citing "End-to-End Object Detection with Transformers"

50 / 5,279 papers shown

Title
Efficient Decoder-free Object Detection with Transformers Peixian Chen Mengdan Zhang Yunhang Shen Kekai Sheng Yuting Gao Xing Sun Ke Li Chunhua Shen ViT 47 17 0 14 Jun 2022
Peripheral Vision Transformer Juhong Min Yucheng Zhao Chong Luo Minsu Cho ViT MDE 32 30 0 14 Jun 2022
TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer Jiajun Deng Zhengyuan Yang Daqing Liu Tianlang Chen Wen-gang Zhou Yanyong Zhang Houqiang Li Wanli Ouyang ViT 35 50 0 14 Jun 2022
Multimodal Learning with Transformers: A Survey Peng Xu Xiatian Zhu David Clifton ViT 79 530 0 13 Jun 2022
A Multi-purpose Realistic Haze Benchmark with Quantifiable Haze Levels and Ground Truth Priya Narayanan Xin Hu Zhenyu Wu Matthew D. Thielke J. Rogers ... James D. Brown Long Quang James R. Uplinger H. Kwon Zhangyang Wang 30 10 0 13 Jun 2022
GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation Wenhao Li Hong Liu Tianyu Guo Runwei Ding Haoling Tang 3DH 23 27 0 13 Jun 2022
Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens Elad Ben-Avraham Roei Herzig K. Mangalam Amir Bar Anna Rohrbach Leonid Karlinsky Trevor Darrell Amir Globerson 19 0 0 13 Jun 2022
Exploring Structure-aware Transformer over Interaction Proposals for Human-Object Interaction Detection Y. Zhang Yingwei Pan Ting Yao Rui Huang Tao Mei C. Chen ViT 38 68 0 13 Jun 2022
Featurized Query R-CNN Wenqiang Zhang Tianheng Cheng Xinggang Wang Shaoyu Chen Qian Zhang Wenyu Liu ObjD 27 5 0 13 Jun 2022
Transformer Lesion Tracker Wen Tang Han Kang Haoyue Zhang Pengxin Yu C. Arnold Rongguo Zhang MedIm 29 6 0 13 Jun 2022
INDIGO: Intrinsic Multimodality for Domain Generalization Puneet Mangla Shivam Chandhok Milan Aggarwal V. Balasubramanian Balaji Krishnamurthy VLM 43 2 0 13 Jun 2022
GLIPv2: Unifying Localization and Vision-Language Understanding Haotian Zhang Pengchuan Zhang Xiaowei Hu Yen-Chun Chen Liunian Harold Li Xiyang Dai Lijuan Wang Lu Yuan Lei Li Jianfeng Gao ObjD VLM 30 291 0 12 Jun 2022
SeATrans: Learning Segmentation-Assisted diagnosis model via Transformer Junde Wu Huihui Fang Fangxin Shang Dalu Yang Zhao-Yang Wang Jing Gao Yehui Yang Yanwu Xu MedIm ViT 43 19 0 12 Jun 2022
Graph-based Spatial Transformer with Memory Replay for Multi-future Pedestrian Trajectory Prediction Lihuan Li Maurice Pagnucco Yang Song 31 58 0 12 Jun 2022
Generalizable Neural Radiance Fields for Novel View Synthesis with Transformer Dan Wang Xinrui Cui Fellow Ieee Septimiu Salcudean F. I. Z. Jane Wang ViT 32 24 0 10 Jun 2022
SERE: Exploring Feature Self-relation for Self-supervised Transformer Zhong-Yu Li Shanghua Gao Ming-Ming Cheng ViT MDE 34 14 0 10 Jun 2022
Saccade Mechanisms for Image Classification, Object Detection and Tracking Saurabh Farkya Z. Daniels Aswin Raghavan David C. Zhang M. Piacentino 35 3 0 10 Jun 2022
Learning self-calibrated optic disc and cup segmentation from multi-rater annotations Junde Wu Huihui Fang Fangxin Shang Zhao-Yang Wang Dalu Yang Wenshuo Zhou Yehui Yang Yanwu Xu 20 16 0 10 Jun 2022
NR-DFERNet: Noise-Robust Network for Dynamic Facial Expression Recognition Hanting Li Ming-Fa Sui Zhaoqing Zhu Feng Zhao 25 27 0 10 Jun 2022
GateHUB: Gated History Unit with Background Suppression for Online Action Detection Junwen Chen Gaurav Mittal Ye Yu Yu Kong Mei Chen 52 33 0 09 Jun 2022
Spatial Entropy as an Inductive Bias for Vision Transformers E. Peruzzo E. Sangineto Yahui Liu Marco De Nadai Wei Bi Bruno Lepri N. Sebe ViT MDE 36 1 0 09 Jun 2022
SparseFormer: Attention-based Depth Completion Network Frederik Warburg Michael Ramamonjisoa Manuel López-Antequera MoE MDE 29 4 0 09 Jun 2022
VITA: Video Instance Segmentation via Object Token Association Miran Heo Sukjun Hwang Seoung Wug Oh Joon-Young Lee Seon Joo Kim VOS 25 88 0 09 Jun 2022
SwinCheX: Multi-label classification on chest X-ray images with transformers Sina Taslimi Soroush Taslimi Nima Fathi Mohammad Salehi M. Rohban ViT MedIm 26 24 0 09 Jun 2022
Stabilizing Voltage in Power Distribution Networks via Multi-Agent Reinforcement Learning with Transformer Minrui Wang Ming Feng Wen-gang Zhou Houqiang Li 33 9 0 08 Jun 2022
A Unified Model for Multi-class Anomaly Detection Zhiyuan You Lei Cui Yujun Shen Kai Yang Xin Lu Yu Zheng Xinyi Le 27 210 0 08 Jun 2022
Delving into the Pre-training Paradigm of Monocular 3D Object Detection Zhuoling Li Chuanrui Zhang En Yu Haoqian Wang 11 1 0 08 Jun 2022
Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding Lingchen Meng Xiyang Dai Yinpeng Chen Pengchuan Zhang Dongdong Chen Mengchen Liu Jianfeng Wang Zuxuan Wu Lu Yuan Yu-Gang Jiang ObjD 22 22 0 07 Jun 2022
A Simple and Efficient Pipeline to Build an End-to-End Spatial-Temporal Action Detector Lin Sui Chen-Da Liu-Zhang Lixin Gu Feng Han 22 8 0 07 Jun 2022
The Devil is in the Labels: Noisy Label Correction for Robust Scene Graph Generation Lin Li Long Chen Yifeng Huang Zhimeng Zhang Songyang Zhang Jun Xiao NoLa 46 73 0 07 Jun 2022
DETR++: Taming Your Multi-Scale Detection Transformer Chi Zhang Lijuan Liu Xiaoxue Zang Frederick Liu Hao Zhang Xi-gang Song Jin-Duan Chen ViT 30 6 0 07 Jun 2022
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation Feng Li Hao Zhang Hu-Sheng Xu Siyi Liu Lei Zhang L. Ni H. Shum ISeg 59 368 0 06 Jun 2022
Learning with Capsules: A Survey Fabio De Sousa Ribeiro Kevin Duarte Miles Everett Georgios Leontidis M. Shah 3DPC MedIm 39 19 0 06 Jun 2022
U(1) Symmetry-breaking Observed in Generic CNN Bottleneck Layers Louis-Franccois Bouchard Mohsen Ben Lazreg Matthew Toews 36 0 0 05 Jun 2022
Recurrent Video Restoration Transformer with Guided Deformable Attention Christos Sakaridis Yuchen Fan Xiaoyu Xiang Rakesh Ranjan Eddy Ilg Simon Green Jingyun Liang Kaicheng Zhang Radu Timofte Luc Van Gool 44 153 0 05 Jun 2022
Video-based Human-Object Interaction Detection from Tubelet Tokens Danyang Tu Wei Sun Xiongkuo Min Guangtao Zhai Wei Shen ViT 23 15 0 04 Jun 2022
CF-YOLO: Cross Fusion YOLO for Object Detection in Adverse Weather with a High-quality Real Snow Dataset Qiqi Ding Peng Li Xu Yan Ding Shi Luming Liang Weiming Wang H. Xie Jonathan Li Mingqiang Wei 20 31 0 03 Jun 2022
PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images Yingfei Liu Junjie Yan Fan Jia Shuailin Li Q. Gao Tiancai Wang Xinming Zhang Jian Sun 3DPC 52 346 0 02 Jun 2022
What Are Expected Queries in End-to-End Object Detection? Shilong Zhang Xinjiang Wang Jiaqi Wang Jiangmiao Pang Kai-xiang Chen 25 5 0 02 Jun 2022
EfficientFormer: Vision Transformers at MobileNet Speed Yanyu Li Geng Yuan Yang Wen Eric Hu Georgios Evangelidis Sergey Tulyakov Yanzhi Wang Jian Ren ViT 26 348 0 02 Jun 2022
Transforming medical imaging with Transformers? A comparative review of key properties, current progresses, and future perspectives Jun Li Junyu Chen Yucheng Tang Ce Wang Bennett A. Landman S. K. Zhou ViT OOD MedIm 25 24 0 02 Jun 2022
DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis B. Pfitzmann Christoph Auer Michele Dolfi A. Nassar Peter W. J. Staar 30 85 0 02 Jun 2022
SparseDet: Towards End-to-End 3D Object Detection Jianhong Han Zhaoyi Wan Zhe Liu J. Feng Bingfeng Zhou 3DPC 39 1 0 02 Jun 2022
XBound-Former: Toward Cross-scale Boundary Modeling in Transformers Jiacheng Wang Fei Chen Yuxi Ma Liansheng Wang Zhaodong Fei Jia Shuai Xiangdong Tang Qichao Zhou Jing Qin ViT MedIm 27 63 0 02 Jun 2022
Floorplan Restoration by Structure Hallucinating Transformer Cascades Sepidehsadat Hosseini Yasutaka Furukawa 3DV 31 3 0 01 Jun 2022
Unifying Voxel-based Representation with Transformer for 3D Object Detection Yanwei Li Yilun Chen Xiaojuan Qi Zeming Li Jian Sun Jiaya Jia ViT 27 250 0 01 Jun 2022
MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining Pengyuan Lyu Chengquan Zhang Shanshan Liu Meina Qiao Yangliu Xu Liang Wu Kun Yao Junyu Han Errui Ding Jingdong Wang 42 42 0 01 Jun 2022
Efficient Multi-Purpose Cross-Attention Based Image Alignment Block for Edge Devices Bahri Batuhan Bilecen Alparslan Fisne Mustafa Ayazoglu 22 2 0 01 Jun 2022
Point-Teaching: Weakly Semi-Supervised Object Detection with Point Annotations Yongtao Ge Qiang-feng Zhou Xinlong Wang Zhibin Wang Hao Li Chunhua Shen 3DPC 27 16 0 01 Jun 2022
Vision GNN: An Image is Worth Graph of Nodes Kai Han Yunhe Wang Jianyuan Guo Yehui Tang Enhua Wu GNN 3DH 19 357 0 01 Jun 2022