Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

25 February 2019

Silvio Savarese

Papers citing "Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression"

50 / 1,082 papers shown

Title
CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer Zhiwen Shao Yuchen Su Yong Zhou Fanrong Meng Hancheng Zhu Bing-Quan Liu Rui Yao 24 9 0 25 Jul 2023
A Pairwise Dataset for GUI Conversion and Retrieval between Android Phones and Tablets Han Hu Haolan Zhan Yujin Huang Di Liu 35 0 0 25 Jul 2023
MFMAN-YOLO: A Method for Detecting Pole-like Obstacles in Complex Environment Lei Cai Haobo Wang C. Zhou Yongqiang Wang Bo Liu 40 0 0 24 Jul 2023
Iterative Robust Visual Grounding with Masked Reference based Centerpoint Supervision Menghao Li Chunlei Wang W. Feng Shuchang Lyu Guangliang Cheng Xiangtai Li Binghao Liu Qi Zhao 38 5 0 23 Jul 2023
Revisiting Distillation for Continual Learning on Visual Question Localized-Answering in Robotic Surgery Long Bai Mobarakol Islam Hongliang Ren 43 18 0 22 Jul 2023
Enhancing Your Trained DETRs with Box Refinement Yiqun Chen Qiang Chen Pei Sun Shoufa Chen Jingdong Wang Jian Cheng 43 2 0 21 Jul 2023
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method Zhihong Chen Ruifei Zhang Yibing Song Xiang Wan Guanbin Li 29 15 0 21 Jul 2023
YOLOPose V2: Understanding and Improving Transformer-based 6D Pose Estimation Arul Selvam Periyasamy Arash A. Amini Vladimir Tsaturyan Sven Behnke ViT 34 16 0 21 Jul 2023
A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect Dataset Zahra Gharaee ZeMing Gong Nicholas Pellegrino Iuliia Zarubiieva Joakim Bruslund Haurum ... S. Ratnasingham D. Steinke Angel X. Chang Graham W. Taylor Paul Fieguth 33 21 0 19 Jul 2023
OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation Dongming Wu Tiancai Wang Yuang Zhang Xiangyu Zhang Jianbing Shen VOS 40 34 0 18 Jul 2023
R-Cut: Enhancing Explainability in Vision Transformers with Relationship Weighted Out and Cut Yingjie Niu Ming Ding Maoning Ge Robin Karlsson Yuxiao Zhang K. Takeda ViT 31 3 0 18 Jul 2023
Rethinking Intersection Over Union for Small Object Detection in Few-Shot Regime Pierre Le Jeune Anissa Zergaïnoh-Mokraoui ObjD 24 6 0 17 Jul 2023
Semi-DETR: Semi-Supervised Object Detection with Detection Transformers Jiacheng Zhang Xiangru Lin Wei Emma Zhang Kuo Wang Xiao Tan Junyu Han Errui Ding Jingdong Wang Guanbin Li ViT 35 37 0 16 Jul 2023
MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression Siliang Ma Yong Xu 41 195 0 14 Jul 2023
Prototypical Contrastive Transfer Learning for Multimodal Language Understanding Seitaro Otsuki Shintaro Ishikawa K. Sugiura 49 1 0 12 Jul 2023
CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery Long Bai Mobarakol Islam Hongliang Ren 29 20 0 11 Jul 2023
TransPose: A Transformer-based 6D Object Pose Estimation Network with Depth Refinement Mahmoud Abdulsalam Nabil Aouf ViT 36 2 0 09 Jul 2023
All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment Chunhui Zhang Xin Sun Li Liu Yiqian Yang Qiong Liu Xiaoping Zhou Yanfeng Wang 59 15 0 07 Jul 2023
MomentDiff: Generative Video Moment Retrieval from Random to Real P. Li Chen-Wei Xie Hongtao Xie Liming Zhao Lei Zhang Yun Zheng Deli Zhao Yongdong Zhang DiffM VGen 49 57 0 06 Jul 2023
Unbalanced Optimal Transport: A Unified Framework for Object Detection Henri De Plaen Pierre-François De Plaen Johan A. K. Suykens Marc Proesmans Tinne Tuytelaars Luc Van Gool OT 29 10 0 05 Jul 2023
Hierarchical Open-vocabulary Universal Image Segmentation Xudong Wang Shufang Li Konstantinos Kallidromitis Yu Kato Kazuki Kozuka Trevor Darrell VLM OCL 51 37 0 03 Jul 2023
Efficient Visual Fault Detection for Freight Train Braking System via Heterogeneous Self Distillation in the Wild Yang Zhang Huilin Pan Yang Zhou Mingying Li Guo-dong Sun 43 8 0 03 Jul 2023
Deep Omni-supervised Learning for Rib Fracture Detection from Chest Radiology Images Zhizhong Chai Luyang Luo Huangjing Lin Pheng-Ann Heng Hao Chen 18 6 0 23 Jun 2023
Iterative Scale-Up ExpansionIoU and Deep Features Association for Multi-Object Tracking in Sports Hsiang-Wei Huang Cheng-Yen Yang Jiacheng Sun Pyong-Kun Kim Kwang-Ju Kim Kyoungoh Lee Chung-I Huang Lei Li 45 22 0 22 Jun 2023
Concurrent ischemic lesion age estimation and segmentation of CT brain using a Transformer-based network A. Marcus P. Bentley Daniel Rueckert MedIm 21 9 0 21 Jun 2023
Dense Video Object Captioning from Disjoint Supervision Xingyi Zhou Anurag Arnab Chen Sun Cordelia Schmid 41 3 0 20 Jun 2023
CrossKD: Cross-Head Knowledge Distillation for Object Detection Jiabao Wang Yuming Chen Zhaohui Zheng Xiang Li Ming-Ming Cheng Qibin Hou 55 33 0 20 Jun 2023
Single-Stage Visual Query Localization in Egocentric Videos Hanwen Jiang Santhosh Kumar Ramakrishnan Kristen Grauman 41 13 0 15 Jun 2023
Relation-Aware Diffusion Model for Controllable Poster Layout Generation Fengheng Li An Liu Wei Feng Honghe Zhu Yaoyu Li ... Jingjing Lv Xin Zhu Jun-Jun Shen Zhangang Lin Jingping Shao 27 21 0 15 Jun 2023
World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models Ziqiao Ma Jiayi Pan J. Chai ObjD VLM 29 9 0 14 Jun 2023
OCAtari: Object-Centric Atari 2600 Reinforcement Learning Environments Quentin Delfosse Jannis Blüml Bjarne Gregori Sebastian Sztwiertnia Kristian Kersting 51 18 0 14 Jun 2023
Single-Stage Visual Relationship Learning using Conditional Queries Alakh Desai Tz-Ying Wu Subarna Tripathi Nuno Vasconcelos 42 7 0 09 Jun 2023
SparseTrack: Multi-Object Tracking by Performing Scene Decomposition based on Pseudo-Depth Zelin Liu Xinggang Wang Cheng Wang Wenyu Liu X. Bai VOS VOT 38 38 0 08 Jun 2023
Object Detection with Transformers: A Review Tahira Shehzadi K. Hashmi D. Stricker Muhammad Zeshan Afzal ViT MU 31 28 0 07 Jun 2023
Language Adaptive Weight Generation for Multi-task Visual Grounding Wei Su Peihan Miao Huanzhang Dou Gaoang Wang Liang Qiao Zheyang Li Xi Li ObjD 35 33 0 06 Jun 2023
Student Classroom Behavior Detection based on Improved YOLOv7 Fan Yang 24 6 0 06 Jun 2023
Cross-Domain Car Detection Model with Integrated Convolutional Block Attention Mechanism Haoxuan Xu Songning Lai Xianyang Li Y. Yang ViT 34 15 0 31 May 2023
VIPriors 3: Visual Inductive Priors for Data-Efficient Deep Learning Challenges Robert-Jan Bruintjes A. Lengyel Marcos Baptista-Rios O. Kayhan Davide Zambrano Nergis Tomen Jan van Gemert 35 9 0 31 May 2023
Table Detection for Visually Rich Document Images Bin Xiao Murat Simsek B. Kantarci Ala Abu Alkheir 29 10 0 30 May 2023
LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training for Document Understanding Yi Tu Ya Guo Huan Chen Jinyang Tang 31 15 0 30 May 2023
Contextual Object Detection with Multimodal Large Language Models Yuhang Zang Wei Li Jun Han Kaiyang Zhou Chen Change Loy ObjD VLM MLLM 50 79 0 29 May 2023
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao VOS 27 31 0 25 May 2023
Semi-Supervised and Long-Tailed Object Detection with CascadeMatch Yuhang Zang Kaiyang Zhou Chen Huang Chen Change Loy 39 13 0 24 May 2023
Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models Ruichen Wang Zekang Chen Chen Chen Jiancang Ma H. Lu Xiaodong Lin DiffM 52 67 0 23 May 2023
A comprehensive theoretical framework for the optimization of neural networks classification performance with respect to weighted metrics Francesco Marchetti Sabrina Guastavino C. Campi F. Benvenuto Michele Piana 21 1 0 22 May 2023
nnDetection for Intracranial Aneurysms Detection and Localization Maysam Orouskhani Negar Firoozeh Shaojun Xia Mahmud Mossa-Basha Chengcheng Zhu 14 2 0 22 May 2023
Boosting Long-tailed Object Detection via Step-wise Learning on Smooth-tail Data Na Dong Yongqiang Zhang Mingli Ding G. Lee 38 3 0 22 May 2023
UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model Zhenghao Zhang Shengfan Zhang Zhichao Wei Zuozhuo Dai Siyu Zhu VOS VLM 35 16 0 22 May 2023
Surgical-VQLA: Transformer with Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery Long Bai Mobarakol Islam Lalithkumar Seenivasan Hongliang Ren 31 27 0 19 May 2023
Selecting Learnable Training Samples is All DETRs Need in Crowded Pedestrian Detection Feng Gao Jiaxu Leng Ji Gan Xinbo Gao ViT 34 7 0 18 May 2023