End-to-End Object Detection with Transformers

26 May 2020

Papers citing "End-to-End Object Detection with Transformers"

50 / 5,185 papers shown

Title
HODOR: High-level Object Descriptors for Object Re-segmentation in Video Learned from Static Images A. Athar Jonathon Luiten Alexander Hermans Deva Ramanan Bastian Leibe VOS 27 25 0 16 Dec 2021
RegionCLIP: Region-based Language-Image Pretraining Yiwu Zhong Jianwei Yang Pengchuan Zhang Chunyuan Li Noel Codella ... Luowei Zhou Xiyang Dai Lu Yuan Yin Li Jianfeng Gao VLM CLIP 40 553 0 16 Dec 2021
Slot-VPS: Object-centric Representation Learning for Video Panoptic Segmentation Yi Zhou Hui Zhang Hana Lee Shuyang Sun Pingjun Li Yangguang Zhu ByungIn Yoo Xiaojuan Qi Jae-Joon Han VOS 30 26 0 16 Dec 2021
Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds Ayush Jain N. Gkanatsios Ishita Mediratta Katerina Fragkiadaki ObjD 23 99 0 16 Dec 2021
QAHOI: Query-Based Anchors for Human-Object Interaction Detection Junwen Chen Keiji Yanai 26 40 0 16 Dec 2021
CPPE-5: Medical Personal Protective Equipment Dataset Rishit Dagli A. Shaikh 29 12 0 15 Dec 2021
SeqFormer: Sequential Transformer for Video Instance Segmentation Junfeng Wu Yi-Xin Jiang S. Bai Wenqing Zhang Xiang Bai ViT 19 101 0 15 Dec 2021
Multi-View Depth Estimation by Fusing Single-View Depth Probability with Multi-View Geometry Gwangbin Bae Ignas Budvytis R. Cipolla 3DV 12 59 0 15 Dec 2021
Domain-informed neural networks for interaction localization within astroparticle experiments Shixiao Liang A. Higuera C. Peters Venkat Roy W. Bajwa H. Shatkay C. Tunnell 19 7 0 15 Dec 2021
Temporal Action Proposal Generation with Background Constraint Haosen Yang Wenhao Wu Lining Wang Sheng Jin Boyang Xia H. Yao Hujie Huang 18 27 0 15 Dec 2021
Decoupling Zero-Shot Semantic Segmentation Jian Ding Nan Xue Guisong Xia Dengxin Dai VLM 56 190 0 15 Dec 2021
AdaViT: Adaptive Tokens for Efficient Vision Transformer Hongxu Yin Arash Vahdat J. Álvarez Arun Mallya Jan Kautz Pavlo Molchanov ViT 35 313 0 14 Dec 2021
Improving Human-Object Interaction Detection via Phrase Learning and Label Composition Zhimin Li Cheng Zou Yu Zhao Boxun Li Shengtao Zhong 24 37 0 14 Dec 2021
Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text Qing Li Boqing Gong Huayu Chen Dan Kondratyuk Xianzhi Du Ming-Hsuan Yang Matthew A. Brown ViT 11 17 0 14 Dec 2021
DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor Points Zhengfei Kuang Jiaman Li Mingming He Tong Wang Yajie Zhao 18 16 0 13 Dec 2021
Anchor Retouching via Model Interaction for Robust Object Detection in Aerial Images Dong Liang Qixiang Geng Zongqi Wei D. Vorontsov Ekaterina L. Kim Mingqiang Wei Huiyu Zhou ObjD 39 47 0 13 Dec 2021
An Informative Tracking Benchmark Xin Li Qiao Liu Wenjie Pei Qiuhong Shen Yaowei Wang Huchuan Lu Ming-Hsuan Yang 19 5 0 13 Dec 2021
SVIP: Sequence VerIfication for Procedures in Videos Yichen Qian Weixin Luo Dongze Lian Xu Tang P. Zhao Shenghua Gao ViT 29 17 0 13 Dec 2021
PartGlot: Learning Shape Part Segmentation from Language Reference Games Juil Koo Ian Huang Panos Achlioptas Leonidas J. Guibas Minhyuk Sung 3DPC 30 28 0 13 Dec 2021
Embracing Single Stride 3D Object Detector with Sparse Transformer Lue Fan Ziqi Pang Tianyuan Zhang Yu-xiong Wang Hang Zhao Feng Wang Naiyan Wang Zhaoxiang Zhang ViT 27 255 0 13 Dec 2021
Change Detection Meets Visual Question Answering Zhenghang Yuan Lichao Mou Zhitong Xiong Xiaoxiang Zhu 21 43 0 12 Dec 2021
Improving Vision Transformers for Incremental Learning Pei Yu Yinpeng Chen Ying Jin Zicheng Liu CLL ViT 19 16 0 12 Dec 2021
Short and Long Range Relation Based Spatio-Temporal Transformer for Micro-Expression Recognition Liangfei Zhang Xiaopeng Hong Ognjen Arandjelovic Guoying Zhao ViT 28 47 0 10 Dec 2021
Deep ViT Features as Dense Visual Descriptors Shirzad Amir Yossi Gandelsman Shai Bagon Tali Dekel MDE ViT 36 273 0 10 Dec 2021
VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface Modeling Yang Li Gang Li Xin Zhou Mostafa Dehghani A. Gritsenko MLLM 29 35 0 10 Dec 2021
Visual Transformers with Primal Object Queries for Multi-Label Image Classification V. O. Yazici Joost van de Weijer Longlong Yu ViT 19 1 0 10 Dec 2021
Couplformer:Rethinking Vision Transformer with Coupling Attention Map Hai Lan Xihao Wang Xian Wei ViT 28 3 0 10 Dec 2021
Rethinking the Two-Stage Framework for Grounded Situation Recognition Meng Wei Long Chen Wei Ji Xiaoyu Yue Tat-Seng Chua 15 29 0 10 Dec 2021
FaceFormer: Speech-Driven 3D Facial Animation with Transformers Yingruo Fan Zhaojiang Lin Jun Saito Wenping Wang Taku Komura CVBM 43 195 0 10 Dec 2021
LCTR: On Awakening the Local Continuity of Transformer for Weakly Supervised Object Localization Zhiwei Chen Changan Wang Yabiao Wang Guannan Jiang Yunhang Shen Ying Tai Chengjie Wang Wei Zhang Liujuan Cao WSOL ViT 33 46 0 10 Dec 2021
Image-to-Image Translation-based Data Augmentation for Robust EV Charging Inlet Detection Yeonjun Bang Yeejin Lee Byeongkeun Kang ViT 6 12 0 10 Dec 2021
PE-former: Pose Estimation Transformer Paschalis Panteleris Antonis Argyros ViT 21 12 0 09 Dec 2021
CA-SSL: Class-Agnostic Semi-Supervised Learning for Detection and Segmentation Lu Qi Jason Kuen Zhe-nan Lin Jiuxiang Gu Fengyun Rao Dian Li Weidong Guo Zhen Wen Ming Yang Jiaya Jia 24 9 0 09 Dec 2021
A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer Weijia Wu Yuanqiang Cai Debing Zhang Sibo Wang Zhuang Li Jiahong Li Yejun Tang Hong Zhou 30 29 0 09 Dec 2021
3D Medical Point Transformer: Introducing Convolution to Attention Networks for Medical Point Cloud Analysis Jianhui Yu Chaoyi Zhang Heng Wang Dingxin Zhang Yang Song Tiange Xiang Dongnan Liu Weidong (Tom) Cai ViT MedIm 21 32 0 09 Dec 2021
Trajectory-Constrained Deep Latent Visual Attention for Improved Local Planning in Presence of Heterogeneous Terrain Stefan Wapnick Travis Manderson D. Meger Gregory Dudek 31 5 0 09 Dec 2021
Recurrent Glimpse-based Decoder for Detection with Transformer Zhe Chen Jing Zhang Dacheng Tao ViT 24 30 0 09 Dec 2021
FLAVA: A Foundational Language And Vision Alignment Model Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela CLIP VLM 40 687 0 08 Dec 2021
Classification-Then-Grounding: Reformulating Video Scene Graphs as Temporal Bipartite Graphs Kaifeng Gao Long Chen Yulei Niu Jian Shao Jun Xiao 15 29 0 08 Dec 2021
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Jenq-Neng Hwang Kai-Wei Chang Jianfeng Gao ObjD VLM 31 1,018 0 07 Dec 2021
Decision-based Black-box Attack Against Vision Transformers via Patch-wise Adversarial Removal Yucheng Shi Yahong Han Yu-an Tan Xiaohui Kuang 38 30 0 07 Dec 2021
Seeing Objects in dark with Continual Contrastive Learning U. Dutta ObjD 30 3 0 06 Dec 2021
PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic Segmentation Haobo Yuan Xiangtai Li Yibo Yang Guangliang Cheng Jing Zhang Yunhai Tong Lefei Zhang Dacheng Tao MDE 44 42 0 05 Dec 2021
Learning Tracking Representations via Dual-Branch Fully Transformer Networks Fei Xie Chunyu Wang Guangting Wang Wankou Yang Wenjun Zeng ViT 19 48 0 05 Dec 2021
Pose-guided Feature Disentangling for Occluded Person Re-identification Based on Transformer Tao Wang Hong Liu Pinhao Song Tianyu Guo Wei Shi ViT 71 171 0 05 Dec 2021
VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts Longtian Qiu Renrui Zhang Ziyu Guo Wei Zhang Zilu Guo Ziyao Zeng Guangnan Zhang VLM CLIP 26 45 0 04 Dec 2021
U2-Former: A Nested U-shaped Transformer for Image Restoration Haobo Ji Xin Feng Wenjie Pei Jinxing Li Guangming Lu ViT 24 26 0 04 Dec 2021
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 148 306 0 04 Dec 2021
The Box Size Confidence Bias Harms Your Object Detector Johannes Gilg Torben Teepe Fabian Herzog Gerhard Rigoll ObjD 19 4 0 03 Dec 2021
Linear algebra with transformers Franccois Charton AIMat 29 56 0 03 Dec 2021