End-to-End Object Detection with Transformers

26 May 2020

Papers citing "End-to-End Object Detection with Transformers"

50 / 5,124 papers shown

Title
EagleVision: Object-level Attribute Multimodal LLM for Remote Sensing Hongxiang Jiang Jihao Yin Qixiong Wang Jiaqi Feng Guo Chen 48 0 0 30 Mar 2025
A GAN-Enhanced Deep Learning Framework for Rooftop Detection from Historical Aerial Imagery Pengyu Chen Sicheng Wang Cuizhen Wang Senrong Wang Beiao Huang Lu Huang Zhe Zang 32 0 0 29 Mar 2025
AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization Martin Kiss Michal Hradiš Martina Dvořáková Václav Jiroušek Filip Kersch 46 1 0 28 Mar 2025
Synergistic Bleeding Region and Point Detection in Surgical Videos Jialun Pei Zhangjun Zhou Diandian Guo Zhixi Li Jing Qin Bo Du Pheng-Ann Heng 42 0 0 28 Mar 2025
SCHNet: SAM Marries CLIP for Human Parsing Kunliang Liu Jianming Wang Rize Jin Wonjun Hwang Tae-Sun Chung VLM 68 0 0 28 Mar 2025
InteractionMap: Improving Online Vectorized HDMap Construction with Interaction Kuang Wu Chuan Yang Zhanbin Li 55 0 0 27 Mar 2025
Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving Lucas Nunes Rodrigo Marcuzzi Jens Behley C. Stachniss 3DPC 83 0 0 27 Mar 2025
OccRobNet : Occlusion Robust Network for Accurate 3D Interacting Hand-Object Pose Estimation Mallika Garg Debashis Ghosh P. M. Pradhan 3DH 64 0 0 27 Mar 2025
BOOTPLACE: Bootstrapped Object Placement with Detection Transformers Hang Zhou X. Zuo Rui Ma Li Cheng ViT 37 0 0 27 Mar 2025
Dual-Task Learning for Dead Tree Detection and Segmentation with Hybrid Self-Attention U-Nets in Aerial Imagery Anis Ur Rahman Einari Heinaro Mete Ahishali Samuli Junttila 40 1 0 27 Mar 2025
Recurrent Feature Mining and Keypoint Mixup Padding for Category-Agnostic Pose Estimation Junjie Chen Weilong Chen Yifan Zuo Yuming Fang 44 0 0 27 Mar 2025
MedSegNet10: A Publicly Accessible Network Repository for Split Federated Medical Image Segmentation C. Shiranthika Zahra Hafezi Kafshgari Hadi Hadizadeh Parvaneh Saeedi FedML 45 0 0 26 Mar 2025
Bandwidth Allocation for Cloud-Augmented Autonomous Driving Peter Schafhalter Alexander Krentsel Joseph E. Gonzalez Sylvia Ratnasamy S. Shenker Ion Stoica 74 0 0 26 Mar 2025
Exploiting Temporal State Space Sharing for Video Semantic Segmentation Syed Ariff Syed Hesham Yun Liu Guolei Sun Henghui Ding Jing Yang Ender Konukoglu Xue Geng Xudong Jiang 53 1 0 26 Mar 2025
Leveraging 3D Geometric Priors in 2D Rotation Symmetry Detection Ahyun Seo Minsu Cho 76 0 0 26 Mar 2025
AI-Driven MRI Spine Pathology Detection: A Comprehensive Deep Learning Approach for Automated Diagnosis in Diverse Clinical Settings Bargava Subramanian Naveen Kumarasami Praveen Shastry Raghotham Sripadraj Kalyan Sivasailam Anandakumar D Abinaya Ramachandran Sudhir MP Gunakutti G Kishore Prasath Venkatesh 54 0 0 26 Mar 2025
BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction Jan Kohút Martin Dočekal Michal Hradiš Marek Vaško 37 0 0 25 Mar 2025
Resilient Sensor Fusion under Adverse Sensor Failures via Multi-Modal Expert Fusion Konyul Park Yecheol Kim Daehun Kim Jun-Won Choi 39 0 0 25 Mar 2025
Benchmarking Object Detectors under Real-World Distribution Shifts in Satellite Imagery Sara Al-Emadi Yin Yang Ferda Ofli 39 0 0 24 Mar 2025
Your ViT is Secretly an Image Segmentation Model Tommie Kerssies Niccolò Cavagnero Alexander Hermans Narges Norouzi Giuseppe Averta Bastian Leibe Gijs Dubbelman Daan de Geus ViT VLM 61 1 0 24 Mar 2025
MaSS13K: A Matting-level Semantic Segmentation Benchmark C. Xie Minghan Li Hui Zeng Jun Luo Lei Zhang VLM 76 0 0 24 Mar 2025
CQ-DINO: Mitigating Gradient Dilution via Category Queries for Vast Vocabulary Object Detection Zhichao Sun Huazhang Hu Yidong Ma Gang Liu Nemo Chen Xu Tang Yao Hu Yongchao Xu ObjD 47 0 0 24 Mar 2025
From Fragment to One Piece: A Survey on AI-Driven Graphic Design Xingxing Zou Wen Zhang Nanxuan Zhao 56 0 0 24 Mar 2025
PanopticSplatting: End-to-End Panoptic Gaussian Splatting Yuxuan Xie Xuan Yu Changjian Jiang Sitong Mao Shunbo Zhou Rui Fan R. Xiong Y. Wang 3DGS 43 0 0 23 Mar 2025
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning Yufei Zhan Yousong Zhu Shurong Zheng Hongyin Zhao Fan Yang Ming Tang J. T. Wang VLM 67 3 0 23 Mar 2025
Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction Mengsay Loem Taiju Hosaka 32 0 0 21 Mar 2025
You Only Look Once at Anytime (AnytimeYOLO): Analysis and Optimization of Early-Exits for Object-Detection Daniel Kuhse Harun Teper Sebastian Buschjäger Chien-Yao Wang Jian-Jia Chen AAML 41 0 0 21 Mar 2025
RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images and A Benchmark Ziteng Cui Jianfei Yang Tatsuya Harada VLM 56 0 0 21 Mar 2025
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis Jiawei Wang Kai Hu Qiang Huo 55 0 0 20 Mar 2025
What can Off-the-Shelves Large Multi-Modal Models do for Dynamic Scene Graph Generation? Xuanming Cui Jaiminkumar Ashokbhai Bhoi Chionh Wei Peng Adriel Kuek Ser-Nam Lim 48 0 0 20 Mar 2025
SaMam: Style-aware State Space Model for Arbitrary Image Style Transfer Hongda Liu Longguang Wang Ye Zhang Ziru Yu Yulan Guo Mamba 70 0 0 20 Mar 2025
Tokenize Image as a Set Zigang Geng Mengde Xu Han Hu Shuyang Gu DiffM 53 0 0 20 Mar 2025
EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining Boshen Xu Yuting Mei Xinbi Liu Sipeng Zheng Qin Jin VLM MDE 65 0 0 19 Mar 2025
Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport Hao Tan Zichang Tan Jun Yu Li A. Liu Jun Wan Zhen Lei VLM 49 0 0 19 Mar 2025
Language-based Image Colorization: A Benchmark and Beyond Y. Li Shuai Yang Jiaying Liu DiffM VLM 51 0 0 19 Mar 2025
Test-Time Backdoor Detection for Object Detection Models Hangtao Zhang Yichen Wang Shihui Yan Chenyu Zhu Ziqi Zhou Linshan Hou Shengshan Hu Minghui Li Yanjun Zhang L. Zhang AAML 54 0 0 19 Mar 2025
Visual Position Prompt for MLLM based Visual Grounding Wei Tang Yanpeng Sun Qinying Gu Zechao Li VLM 50 0 0 19 Mar 2025
xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion Saad Lahlali Sandra Kara Hejer Ammar Florian Chabot Nicolas Granger Hervé Le Borgne Q. C. Pham 3DPC 57 0 0 19 Mar 2025
Universal Scene Graph Generation Shengqiong Wu Hao Fei Tat-Seng Chua 41 0 0 19 Mar 2025
DCA: Dividing and Conquering Amnesia in Incremental Object Detection Aoting Zhang Dongbao Yang Chang-Shu Liu Xiaopeng Hong Miao Shang Yu Zhou CLL 60 0 0 19 Mar 2025
A Context-Driven Training-Free Network for Lightweight Scene Text Segmentation and Recognition Ritabrata Chakraborty Shivakumara Palaiahnakote Umapada Pal Cheng-Lin Liu VLM 47 0 0 19 Mar 2025
FedSCA: Federated Tuning with Similarity-guided Collaborative Aggregation for Heterogeneous Medical Image Segmentation Yumin Zhang Yan Gao Haoran Duan Hanqing Guo Tejal Shah R. Ranjan Bo Wei FedML 73 0 0 19 Mar 2025
TGBFormer: Transformer-GraphFormer Blender Network for Video Object Detection Qiang Qi Xiao Wang ViT 154 0 0 18 Mar 2025
FrustumFusionNets: A Three-Dimensional Object Detection Network Based on Tractor Road Scene Lili Yang Mengshuai Chang Xiao Guo Yuxin Feng Yiwen Mei Caicong Wu 3DPC 73 0 0 18 Mar 2025
LipShiFT: A Certifiably Robust Shift-based Vision Transformer Rohan Menon Nicola Franco Stephan Günnemann 53 0 0 18 Mar 2025
LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation Yang Zhou Shiyu Zhao Y. Chen Z. Wang Dimitris N. Metaxas ObjD 56 0 0 18 Mar 2025
Advancing Medical Representation Learning Through High-Quality Data Negin Baghbanzadeh Adibvafa Fallahpour Yasaman Parhizkar Franklin Ogidi Shuvendu Roy ... Vahid Reza Khazaie Michael Colacci Ali Etemad Arash Afkanpour Elham Dolatabadi LM&MA 83 0 0 18 Mar 2025
State Space Model Meets Transformer: A New Paradigm for 3D Object Detection Chuxin Wang Wenfei Yang Xiang Liu Tianzhu Zhang 59 0 0 18 Mar 2025
Is Discretization Fusion All You Need for Collaborative Perception? Kang Yang Tianci Bu L. Li Chunxu Li Y. Wang Deying Li 63 0 0 18 Mar 2025
Action tube generation by person query matching for spatio-temporal action detection Kazuki Omi Jion Oshima Toru Tamaki 60 0 0 17 Mar 2025