End-to-End Object Detection with Transformers

26 May 2020

Papers citing "End-to-End Object Detection with Transformers"

50 / 5,279 papers shown

Title
Robustifying Vision Transformer without Retraining from Scratch by Test-Time Class-Conditional Feature Alignment Takeshi Kojima Yutaka Matsuo Yusuke Iwasawa 55 27 0 28 Jun 2022
Boosting R-CNN: Reweighting R-CNN Samples by RPN's Error for Underwater Object Detection Pinhao Song Hong Liu Linhui Dai Tao Wang Zhan Chen ObjD 39 134 0 28 Jun 2022
The Third Place Solution for CVPR2022 AVA Accessibility Vision and Autonomy Challenge Bo Yan Leilei Cao Zhuang Li Hongbin Wang 32 0 0 28 Jun 2022
Prompting Decision Transformer for Few-Shot Policy Generalization Mengdi Xu Songlin Yang Shun Zhang Yuchen Lu Ding Zhao J. Tenenbaum Chuang Gan OffRL 18 136 0 27 Jun 2022
LaRa: Latents and Rays for Multi-Camera Bird's-Eye-View Semantic Segmentation Florent Bartoccioni Éloi Zablocki Andrei Bursuc Patrick Pérez Matthieu Cord Alahari Karteek 51 33 0 27 Jun 2022
Context-Aware Transformers For Spinal Cancer Detection and Radiological Grading Rhydian Windsor A. Jamaludin T. Kadir Andrew Zisserman ViT MedIm 13 14 0 27 Jun 2022
PST: Plant segmentation transformer for 3D point clouds of rapeseed plants at the podding stage Ruiming Du Zhihong Ma Pengyao Xie Yong He Haiyan Cen 3DPC 19 35 0 27 Jun 2022
Vision Transformer for Contrastive Clustering Hua-Bao Ling Bo Zhu Dong Huang Dingfan Chen Changdong Wang Jianhuang Lai ViT 11 3 0 26 Jun 2022
Excavating RoI Attention for Underwater Object Detection Xutao Liang Pinhao Song 28 34 0 24 Jun 2022
MaskRange: A Mask-classification Model for Range-view based LiDAR Segmentation Yinjuan Gu Yuming Huang Chengzhong Xu Hui Kong ISeg VLM 3DPC 30 10 0 24 Jun 2022
Bilateral Network with Channel Splitting Network and Transformer for Thermal Image Super-Resolution Bo Yan Leilei Cao Fengliang Qi Hongbin Wang ViT 19 1 0 24 Jun 2022
The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation Leilei Cao Zhuang Li Bo Yan Feng Zhang Fengliang Qi Yucheng Hu Hongbin Wang VOS 21 1 0 24 Jun 2022
Equiformer: Equivariant Graph Attention Transformer for 3D Atomistic Graphs Yi-Lun Liao Tess E. Smidt 90 217 0 23 Jun 2022
Toward Clinically Assisted Colorectal Polyp Recognition via Structured Cross-modal Representation Consistency Weijie Ma Ye Zhu Ruimao Zhang Jie Yang Yiwen Hu Zhuguo Li Lijuan Xiang ViT MedIm 24 3 0 23 Jun 2022
Towards Robust Blind Face Restoration with Codebook Lookup Transformer Shangchen Zhou Kelvin C. K. Chan Chongyi Li Chen Change Loy CVBM 23 222 0 22 Jun 2022
Open Vocabulary Object Detection with Proposal Mining and Prediction Equalization Peixian Chen Kekai Sheng Mengdan Zhang Mingbao Lin Yunhang Shen Shaohui Lin Bo Ren Ke Li VLM ObjD 45 27 0 22 Jun 2022
Polar Parametrization for Vision-based Surround-View 3D Detection Shaoyu Chen Xinggang Wang Tianheng Cheng Qian Zhang Chang Huang Wenyu Liu 3DPC 35 68 0 22 Jun 2022
S2TNet: Spatio-Temporal Transformer Networks for Trajectory Prediction in Autonomous Driving Weihua Chen Fangfang Wang Hongbin Sun 29 40 0 22 Jun 2022
Generative Pretraining for Black-Box Optimization S. Krishnamoorthy Satvik Mashkaria Aditya Grover OffRL AI4CE 58 26 0 22 Jun 2022
Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for Mobile Agents via Unsupervised Contrastive Learning A. Jaus Kailun Yang Rainer Stiefelhagen 46 17 0 21 Jun 2022
Neural Transformers for Intraductal Papillary Mucosal Neoplasms (IPMN) Classification in MRI images Federica Proietto Salanitri Giovanni Bellitto S. Palazzo Ismail Irmakci Michael B. Wallace ... S. Hoogenboom Marco Aldinucci Ulas Bagci D. Giordano C. Spampinato ViT MedIm 29 7 0 21 Jun 2022
Probing Visual-Audio Representation for Video Highlight Detection via Hard-Pairs Guided Contrastive Learning Shuaicheng Li Feng Zhang Kunlin Yang Lin-Na Liu Shinan Liu Jun Hou Shuai Yi 48 8 0 21 Jun 2022
Pyramid Region-based Slot Attention Network for Temporal Action Proposal Generation Shuaicheng Li Feng Zhang Ruiwei Zhao Rui Feng Kunlin Yang Lin-Na Liu Jun Hou ViT 31 5 0 21 Jun 2022
BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection Yinhao Li Zheng Ge Guanyi Yu Jinrong Yang Zengran Wang Yukang Shi Jian‐Yuan Sun Zeming Li MDE 32 597 0 21 Jun 2022
Counting Varying Density Crowds Through Density Guided Adaptive Selection CNN and Transformer Estimation Yuehai Chen Jing Yang Badong Chen S. Du 27 31 0 21 Jun 2022
3D Object Detection for Autonomous Driving: A Comprehensive Survey Jiageng Mao Shaoshuai Shi Xiaogang Wang Hongsheng Li 3DPC 37 209 0 19 Jun 2022
Learning Multiscale Transformer Models for Sequence Generation Bei Li Tong Zheng Yi Jing Chengbo Jiao Tong Xiao Jingbo Zhu 32 9 0 19 Jun 2022
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm Jiangning Zhang Xiangtai Li Yabiao Wang Chengjie Wang Yibo Yang Yong Liu Dacheng Tao ViT 41 32 0 19 Jun 2022
SAViR-T: Spatially Attentive Visual Reasoning with Transformers Pritish Sahu Kalliopi Basioti Vladimir Pavlovic LRM 19 15 0 18 Jun 2022
Bear the Query in Mind: Visual Grounding with Query-conditioned Convolution Chonghan Chen Qi Jiang1 Chih-Hao Wang Noel Chen Haohan Wang Xiang Li Bhiksha Raj ObjD 27 0 0 18 Jun 2022
Conditional Permutation Invariant Flows Berend Zwartsenberg Adam Scibior Matthew Niedoba Vasileios Lioutas Yunpeng Liu Justice Sefas Setareh Dabiri J. Lavington Trevor Campbell Frank Wood 17 8 0 17 Jun 2022
CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation Qihang Yu Huiyu Wang Dahun Kim Siyuan Qiao Maxwell D. Collins Yukun Zhu Hartwig Adam Alan Yuille Liang-Chieh Chen ViT MedIm 34 90 0 17 Jun 2022
VectorMapNet: End-to-end Vectorized HD Map Learning Yicheng Liu Tianyuan Yuan Yue Wang Yilun Wang Hang Zhao 23 190 0 17 Jun 2022
A Deep Learning Approach for the Segmentation of Electroencephalography Data in Eye Tracking Applications L. Wolf Ard Kastrati M. Płomecka J. Li Dustin Klebe Alexander Veicht Roger Wattenhofer N. Langer 29 10 0 17 Jun 2022
Multi-Contextual Predictions with Vision Transformer for Video Anomaly Detection Joo-Yeon Lee Woo-Jeoung Nam Seong-Whan Lee ViT 22 13 0 17 Jun 2022
FWD: Real-time Novel View Synthesis with Forward Warping and Depth Ang Cao C. Rockwell Justin Johnson 44 50 0 16 Jun 2022
Online Segmentation of LiDAR Sequences: Dataset and Algorithm Romain Loiseau Mathieu Aubry Loïc Landrieu 3DPC 29 15 0 16 Jun 2022
RefCrowd: Grounding the Target in Crowd with Referring Expressions Heqian Qiu Hongliang Li Taijin Zhao Lanxiao Wang Qingbo Wu Fanman Meng ObjD 32 6 0 16 Jun 2022
Patch-level Representation Learning for Self-supervised Vision Transformers Sukmin Yun Hankook Lee Jaehyung Kim Jinwoo Shin ViT 27 64 0 16 Jun 2022
Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos Lianyang Ma Yu Yao Tao Liang Tongliang Liu 23 4 0 16 Jun 2022
Simple-BEV: What Really Matters for Multi-Sensor BEV Perception? Adam W. Harley Zhaoyuan Fang Jie Li Rares Andrei Ambrus Katerina Fragkiadaki 49 117 0 16 Jun 2022
SAVi++: Towards End-to-End Object-Centric Learning from Real-World Videos Gamaleldin F. Elsayed Aravindh Mahendran Sjoerd van Steenkiste Klaus Greff Michael C. Mozer Thomas Kipf VOS OCL 58 140 0 15 Jun 2022
A Unified Sequence Interface for Vision Tasks Ting-Li Chen Saurabh Saxena Lala Li Nayeon Lee David J. Fleet Geoffrey E. Hinton VLM MLLM 19 148 0 15 Jun 2022
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang ... Ce Liu Yann LeCun Nanyun Peng Jianfeng Gao Lijuan Wang VLM ObjD 32 124 0 15 Jun 2022
Rethinking Initialization of the Sinkhorn Algorithm James Thornton Marco Cuturi OT 29 10 0 15 Jun 2022
Forecasting of depth and ego-motion with transformers and self-supervision Houssem-eddine Boulahbal A. Voicila Andrew I. Comport ViT MDE 32 3 0 15 Jun 2022
S $^2$ -FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation Mohammed A. M. Elhassan Chunming Yang Chenxi Huang Tewodros Legesse Munea Xin Hong Abuzar B. M. Adam Amina Benabid SSeg 32 5 0 15 Jun 2022
Codec at SemEval-2022 Task 5: Multi-Modal Multi-Transformer Misogynous Meme Classification Framework Ahmed M. Mahran C. Borella K. Perifanos 22 1 0 14 Jun 2022
Consistent Video Instance Segmentation with Inter-Frame Recurrent Attention Quanzeng You Jiang Wang Peng Chu Andre Abrantes Zicheng Liu VOS 29 1 0 14 Jun 2022
Comprehending and Ordering Semantics for Image Captioning Yehao Li Yingwei Pan Ting Yao Tao Mei 26 88 0 14 Jun 2022