ViRED: Prediction of Visual Relations in Engineering Drawings

ViRED: Prediction of Visual Relations in Engineering Drawings

2 September 2024

ArXiv (abs)PDF HTML

Papers citing "ViRED: Prediction of Visual Relations in Engineering Drawings"

19 / 19 papers shown

Title
Unified Visual Relationship Detection with Vision and Language Models Long Zhao Liangzhe Yuan Boqing Gong Huayu Chen Florian Schroff Ming-Hsuan Yang Hartwig Adam Ting Liu ObjD 75 9 0 16 Mar 2023
ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding Qiming Peng Yinxu Pan Wenjin Wang Bin Luo Zhenyu Zhang ... Shi Feng Yu Sun Hao Tian Hua Wu Haifeng Wang 73 83 0 12 Oct 2022
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang Tengchao Lv Lei Cui Yutong Lu Furu Wei 102 461 0 18 Apr 2022
DiT: Self-supervised Pre-training for Document Image Transformer Junlong Li Yiheng Xu Tengchao Lv Lei Cui Chaoxi Zhang Furu Wei ViT VLM 113 167 0 04 Mar 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 485 7,837 0 11 Nov 2021
DocFormer: End-to-End Transformer for Document Understanding Srikar Appalaraju Bhavan A. Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha ViT 96 280 0 22 Jun 2021
End-to-End Object Detection with Transformers Nicolas Carion Francisco Massa Gabriel Synnaeve Nicolas Usunier Alexander Kirillov Sergey Zagoruyko ViT 3DV PINN 456 13,153 0 26 May 2020
CascadeTabNet: An approach for end to end table detection and structure recognition from image-based documents D. Prasad Ayan Gadpal Kshitij Kapadni Manish Visave Kavita A. Sultanpure LMTD 62 169 0 27 Apr 2020
PICK: Processing Key Information Extraction from Documents using Improved Graph Learning-Convolutional Networks Wenwen Yu Ning Lu Xianbiao Qi Ping Gong Rong Xiao 70 138 0 16 Apr 2020
LayoutLM: Pre-training of Text and Layout for Document Image Understanding Yiheng Xu Minghao Li Lei Cui Shaohan Huang Furu Wei Ming Zhou 149 712 0 31 Dec 2019
PubLayNet: largest dataset ever for document layout analysis Xu Zhong Jianbin Tang Antonio Jimeno Yepes 54 462 0 16 Aug 2019
Mask R-CNN Kaiming He Georgia Gkioxari Piotr Dollár Ross B. Girshick ObjD 389 27,275 0 20 Mar 2017
Towards Context-aware Interaction Recognition Bohan Zhuang Lingqiao Liu Chunhua Shen Ian Reid HAI 60 143 0 18 Mar 2017
Visual Translation Embedding Network for Visual Relation Detection Hanwang Zhang Zawlin Kyaw Shih-Fu Chang Tat-Seng Chua ViT 245 562 0 27 Feb 2017
Feature Pyramid Networks for Object Detection Nayeon Lee Piotr Dollár Ross B. Girshick Kaiming He Bharath Hariharan Serge J. Belongie ObjD 491 22,158 0 09 Dec 2016
Visual Relationship Detection with Language Priors Cewu Lu Ranjay Krishna Michael S. Bernstein Li Fei-Fei VLM 84 1,142 0 31 Jul 2016
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren Kaiming He Ross B. Girshick Jian Sun AIMat ObjD 543 62,477 0 04 Jun 2015
Fast R-CNN Ross B. Girshick ObjD 315 25,114 0 30 Apr 2015
Rich feature hierarchies for accurate object detection and semantic segmentation Ross B. Girshick Jeff Donahue Trevor Darrell Jitendra Malik ObjD 301 26,247 0 11 Nov 2013