Towards End-to-End Unified Scene Text Detection and Layout Analysis

Towards End-to-End Unified Scene Text Detection and Layout Analysis

28 March 2022

Dmitry Panteleev

Alessandro Bissacco

Yasuhisa Fujii

Michalis Raptis

Papers citing "Towards End-to-End Unified Scene Text Detection and Layout Analysis"

16 / 16 papers shown

Title
A Token-level Text Image Foundation Model for Document Understanding Tongkun Guan Zining Wang Pei Fu Zhengtao Guo Wei-Ming Shen ... Chen Duan Hao Sun Qianyi Jiang Junfeng Luo Xiaokang Yang VLM 45 0 0 04 Mar 2025
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance Qingpei Guo Kaiyou Song Zipeng Feng Ziping Ma Qinglong Zhang ... Yunxiao Sun Tai-WeiChang Jingdong Chen Ming Yang Jun Zhou MLLM VLM 90 3 0 26 Feb 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 99 48 0 03 Jan 2025
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding Qing Jiang Gen Luo Yuqin Yang Yuda Xiong Yihao Chen Zhaoyang Zeng Tianhe Ren Lei Zhang VLM LRM 109 6 0 27 Nov 2024
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting Alloy Das Sanket Biswas Umapada Pal Josep Lladós Saumik Bhattacharya 60 2 0 27 Aug 2024
Out of Length Text Recognition with Sub-String Matching Yongkun Du Zhineng Chen Caiyan Jia Xieping Gao Yu-Gang Jiang 59 2 0 17 Jul 2024
TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model Jiahao Lyu Jin Wei Gangyan Zeng Zeng Li Enze Xie Wei Wang Yu Zhou VLM 29 3 0 15 Mar 2024
InkSight: Offline-to-Online Handwriting Conversion by Learning to Read and Write B. Mitrevski Arina Rak Julian Schnitzler Chengkun Li Andrii Maksai Jesse Berent C. Musat DiffM 28 0 0 08 Feb 2024
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents Shilong Liu Hao Cheng Haotian Liu Hao Zhang Feng Li ... Hang Su Jun Zhu Lei Zhang Jianfeng Gao Chun-yue Li MLLM VLM 56 105 0 09 Nov 2023
SCOB: Universal Text Understanding via Character-wise Supervised Contrastive Learning with Online Text Rendering for Bridging Domain Gap Daehee Kim Yoon Kim Donghyun Kim Yumin Lim Geewook Kim Taeho Kil 31 3 0 21 Sep 2023
Selective Scene Text Removal Hayato Mitani Akisato Kimura Seiichi Uchida 29 1 0 01 Sep 2023
End-to-End Page-Level Assessment of Handwritten Text Recognition Enrique Vidal Alejandro H. Toselli Antonio Ríos-Vila Jorge Calvo-Zaragoza 22 16 0 14 Jan 2023
CBNet: A Plug-and-Play Network for Segmentation-Based Scene Text Detection Xi Zhao Wei Feng Zheng Zhang Jing Lv Xin Zhu Zhangang Lin Jin Hu Jingping Shao 37 5 0 05 Dec 2022
Out-of-Vocabulary Challenge Report Sergi Garcia-Bordils Andrés Mafla Ali Furkan Biten Oren Nuriel Aviad Aberdam Shai Mazor Ron Litman Dimosthenis Karatzas 14 16 0 14 Sep 2022
1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding: End-to-End Recognition of Out of Vocabulary Words Zhangzi Zhu Chuhui Xue Yu Hao Wenqing Zhang Song Bai 53 0 0 01 Sep 2022
CentripetalText: An Efficient Text Instance Representation for Scene Text Detection Tao Sheng Jie Chen Zheng Lian 29 26 0 13 Jul 2021