You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection

1 June 2021

Papers citing "You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection"

50 / 58 papers shown

Title
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity Ranjan Sapkota Rahul Harsha Cheppally Ajay Sharda Manoj Karkee 39 0 0 17 Apr 2025
Post-processing for Fair Regression via Explainable SVD Zhiqun Zuo Ding Zhu Mohammad Mahdi Khalili 199 0 0 04 Apr 2025
8-Calves Image dataset Xuyang Fang S. Hannuna Neill D. F. Campbell 159 0 0 17 Mar 2025
Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis Amir Hosein Fadaei M. Dehaqani 45 0 0 11 Feb 2025
ViTOC: Vision Transformer and Object-aware Captioner Feiyang Huang 37 0 0 09 Nov 2024
Token Pruning using a Lightweight Background Aware Vision Transformer Sudhakar Sah Ravish Kumar Honnesh Rohmetra Ehsan Saboori ViT 26 1 0 12 Oct 2024
Cross Resolution Encoding-Decoding For Detection Transformers Ashish Kumar Jaesik Park ViT 38 0 0 05 Oct 2024
A Hybrid Approach for Document Layout Analysis in Document images Tahira Shehzadi Didier Stricker Muhammad Zeshan Afzal 37 5 0 27 Apr 2024
Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing Yuang Liu Zhiheng Qiu Xiaokai Qin ViT 39 0 0 20 Apr 2024
LocalMamba: Visual State Space Model with Windowed Selective Scan Tao Huang Xiaohuan Pei Shan You Fei Wang Chao Qian Chang Xu Mamba 45 140 0 14 Mar 2024
Early and Accurate Detection of Tomato Leaf Diseases Using TomFormer Asim Khan Umair Nawaz K. Lochan Lakmal D. Seneviratne Irfan Hussain MedIm 30 4 0 26 Dec 2023
Transformer-Powered Surrogates Close the ICF Simulation-Experiment Gap with Extremely Limited Data M. Olson Shusen Liu Jayaraman J. Thiagarajan B. Kustowski Weng-Keen Wong Rushil Anirudh AI4CE 36 1 0 06 Dec 2023
Improved TokenPose with Sparsity Anning Li ViT 34 0 0 16 Nov 2023
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion Xian Liu Jian Ren Aliaksandr Siarohin Ivan Skorokhodov Yanyu Li Dahua Lin Xihui Liu Ziwei Liu Sergey Tulyakov 32 57 0 12 Oct 2023
CrIBo: Self-Supervised Learning via Cross-Image Object-Level Bootstrapping Tim Lebailly Thomas Stegmüller Behzad Bozorgtabar Jean-Philippe Thiran Tinne Tuytelaars SSL 52 6 0 11 Oct 2023
Vision Transformers Need Registers Zilong Chen Maxime Oquab Julien Mairal Huaping Liu ViT 62 312 0 28 Sep 2023
IFT: Image Fusion Transformer for Ghost-free High Dynamic Range Imaging Hai-lin Wang Wei Li Yuanyuan Xi Jie Hu Hanting Chen Longyu Li Yun Wang 20 1 0 26 Sep 2023
Learning Heavily-Degraded Prior for Underwater Object Detection C. Fu Xin-Yue Fan Jiewen Xiao Wanqi Yuan Risheng Liu Zhongxuan Luo 24 22 0 24 Aug 2023
Radar-Camera Fusion for Object Detection and Semantic Segmentation in Autonomous Driving: A Comprehensive Review Shanliang Yao Runwei Guan Xiaoyu Huang Zhuoxiao Li Xiangyu Sha ... Eng Gee Lim H. Seo Ka Lok Man Xiaohui Zhu Yutao Yue 41 91 0 20 Apr 2023
Distilling Token-Pruned Pose Transformer for 2D Human Pose Estimation Feixiang Ren ViT 21 2 0 12 Apr 2023
Prompt-Guided Transformers for End-to-End Open-Vocabulary Object Detection Hwanjun Song Jihwan Bang VLM ObjD 29 14 0 25 Mar 2023
Transformer-based Image Generation from Scene Graphs Renato Sortino S. Palazzo C. Spampinato ViT 59 15 0 08 Mar 2023
Vision Transformer-based Feature Extraction for Generalized Zero-Shot Learning Jiseob Kim Kyuhong Shim Junhan Kim B. Shim ViT 32 12 0 02 Feb 2023
RNTrajRec: Road Network Enhanced Trajectory Recovery with Spatial-Temporal Transformer Yuqi Chen Hanyuan Zhang Weiwei Sun B. Zheng 29 39 0 23 Nov 2022
YORO -- Lightweight End to End Visual Grounding Chih-Hui Ho Srikar Appalaraju Bhavan A. Jasani R. Manmatha Nuno Vasconcelos ObjD 21 21 0 15 Nov 2022
ParCNetV2: Oversized Kernel with Enhanced Attention Ruihan Xu Haokui Zhang Wenze Hu Shiliang Zhang Xiaoyu Wang ViT 32 6 0 14 Nov 2022
BiViT: Extremely Compressed Binary Vision Transformer Yefei He Zhenyu Lou Luoming Zhang Jing Liu Weijia Wu Hong Zhou Bohan Zhuang ViT MQ 20 28 0 14 Nov 2022
Multi-Objective Evolutionary for Object Detection Mobile Architectures Search Haichao Zhang Jiashi Li Xin Xia K. Hao Xuefeng Xiao 39 2 0 05 Nov 2022
Centralized Feature Pyramid for Object Detection Yu Quan Dong Zhang Liyan Zhang Jinhui Tang ObjD 31 150 0 05 Oct 2022
Bridged Transformer for Vision and Point Cloud 3D Object Detection Yikai Wang Tengqi Ye Lele Cao Wen-bing Huang Gang Hua Fengxiang He Dacheng Tao ViT 45 34 0 04 Oct 2022
PPT: token-Pruned Pose Transformer for monocular and multi-view human pose estimation Haoyu Ma Zhe Wang Yifei Chen Deying Kong Liangjian Chen Xingwei Liu Xiangyi Yan Hao Tang Xiaohui Xie ViT 35 47 0 16 Sep 2022
MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction Bencheng Liao Shaoyu Chen Xinggang Wang Tianheng Cheng Qian Zhang Wenyu Liu Chang Huang ViT 48 219 0 30 Aug 2022
Geodesic-Former: a Geodesic-Guided Few-shot 3D Point Cloud Instance Segmenter T. Ngo Khoi Duc Minh Nguyen 3DPC 19 4 0 22 Jul 2022
GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features Van-Quang Nguyen Masanori Suganuma Takayuki Okatani ViT 36 106 0 20 Jul 2022
HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation Moein Heidari A. Kazerouni Milad Soltany Kadarvish Reza Azad Ehsan Khodapanah Aghdam Julien Cohen-Adad Dorit Merhof MedIm ViT 25 178 0 18 Jul 2022
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm Jiangning Zhang Xiangtai Li Yabiao Wang Chengjie Wang Yibo Yang Yong Liu Dacheng Tao ViT 34 32 0 19 Jun 2022
Featurized Query R-CNN Wenqiang Zhang Tianheng Cheng Xinggang Wang Shaoyu Chen Qian Zhang Wenyu Liu ObjD 27 5 0 13 Jun 2022
Penalizing Proposals using Classifiers for Semi-Supervised Object Detection S. Hazra P. Dasgupta 33 0 0 26 May 2022
Inception Transformer Chenyang Si Weihao Yu Pan Zhou Yichen Zhou Xinchao Wang Shuicheng Yan ViT 37 187 0 25 May 2022
Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral Compressive Imaging Yuanhao Cai Jing Lin Haoqian Wang Xin Yuan Henghui Ding Yulun Zhang Radu Timofte Luc Van Gool 80 116 0 20 May 2022
Simple Open-Vocabulary Object Detection with Vision Transformers Matthias Minderer A. Gritsenko Austin Stone Maxim Neumann Dirk Weissenborn ... Zhuoran Shen Tianlin Li Xiaohua Zhai Thomas Kipf N. Houlsby ObjD CLIP VLM ViT OCL 34 307 0 12 May 2022
Where in the World is this Image? Transformer-based Geo-localization in the Wild Shraman Pramanick E. Nowara Joshua Gleason Carlos D. Castillo Rama Chellappa ViT 21 30 0 29 Apr 2022
An Extendable, Efficient and Effective Transformer-based Object Detector Hwanjun Song Deqing Sun Sanghyuk Chun Varun Jampani Dongyoon Han Byeongho Heo Wonjae Kim Ming-Hsuan Yang 22 13 0 17 Apr 2022
Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection Yuxin Fang Shusheng Yang Shijie Wang Yixiao Ge Ying Shan Xinggang Wang 31 55 0 06 Apr 2022
Transformers Meet Visual Learning Understanding: A Comprehensive Review Yuting Yang Licheng Jiao Xuantong Liu F. Liu Shuyuan Yang Zhixi Feng Xu Tang ViT MedIm 27 28 0 24 Mar 2022
Towards Data-Efficient Detection Transformers Wen Wang Jing Zhang Yang Cao Yongliang Shen Dacheng Tao ViT 23 59 0 17 Mar 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 213 0 18 Feb 2022
Towards End-to-End Image Compression and Analysis with Transformers Yuanchao Bai Xu Yang Xianming Liu Junjun Jiang Yaowei Wang Xiangyang Ji Wen Gao ViT 31 51 0 17 Dec 2021
TransMix: Attend to Mix for Vision Transformers Jieneng Chen Shuyang Sun Ju He Philip Torr Alan Yuille S. Bai ViT 28 103 0 18 Nov 2021
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 77 330 0 11 Nov 2021