High-Performance Transformers for Table Structure Recognition Need Early
Convolutions

High-Performance Transformers for Table Structure Recognition Need Early Convolutions

9 November 2023

Sheng-Hsuan Peng

Rajarajeswari Balasubramaniyan

Duen Horng Chau

ArXiv (abs)PDF HTML Github (43★)

Papers citing "High-Performance Transformers for Table Structure Recognition Need Early Convolutions"

16 / 16 papers shown

Title
Robust Principles: Architectural Design Principles for Adversarially Robust CNNs Sheng-Hsuan Peng Weilin Xu Cory Cornelius Matthew Hull Kevin Wenliang Li Rahul Duggal Mansi Phute Jason Martin Duen Horng Chau AAML 65 48 0 30 Aug 2023
Revisiting Adversarial Training for ImageNet: Architectures, Training and Generalization across Threat Models Naman D. Singh Francesco Croce Matthias Hein OOD 105 66 0 03 Mar 2023
DiT: Self-supervised Pre-training for Document Image Transformer Junlong Li Yiheng Xu Tengchao Lv Lei Cui Chaoxi Zhang Furu Wei ViT VLM 100 167 0 04 Mar 2022
TableFormer: Table Structure Understanding with Transformers A. Nassar Nikolaos Livathinos Maksym Lysak Peter W. J. Staar LMTD ViT 91 77 0 02 Mar 2022
A ConvNet for the 2020s Zhuang Liu Hanzi Mao Chaozheng Wu Christoph Feichtenhofer Trevor Darrell Saining Xie ViT 189 5,226 0 10 Jan 2022
Early Convolutions Help Transformers See Better Tete Xiao Mannat Singh Eric Mintun Trevor Darrell Piotr Dollár Ross B. Girshick 60 773 0 28 Jun 2021
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao Li Dong Songhao Piao Furu Wei ViT 292 2,845 0 15 Jun 2021
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision Wonjae Kim Bokyung Son Ildoo Kim VLM CLIP 139 1,761 0 05 Feb 2021
Long Range Arena: A Benchmark for Efficient Transformers Yi Tay Mostafa Dehghani Samira Abnar Songlin Yang Dara Bahri Philip Pham J. Rao Liu Yang Sebastian Ruder Donald Metzler 160 730 0 08 Nov 2020
Global Table Extractor (GTE): A Framework for Joint Table Identification and Cell Structure Recognition Using Visual Context Xinyi Zheng Doug Burdick Lucian Popa Xu Zhong N. Wang LMTD 73 153 0 01 May 2020
Image-based table recognition: data, model, and evaluation Xu Zhong Elaheh Shafieibavani Antonio Jimeno Yepes LMTD 102 223 0 25 Nov 2019
On the Relationship between Self-Attention and Convolutional Layers Jean-Baptiste Cordonnier Andreas Loukas Martin Jaggi 116 535 0 08 Nov 2019
MASTER: Multi-Aspect Non-local Network for Scene Text Recognition Ning Lu Wenwen Yu Xianbiao Qi Yihao Chen Ping Gong Rong Xiao Xiang Bai 52 157 0 07 Oct 2019
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks Jiasen Lu Dhruv Batra Devi Parikh Stefan Lee SSL VLM 255 3,699 0 06 Aug 2019
Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression S. Hamid Rezatofighi Deyuan Li JunYoung Gwak Amir Sadeghian Ian Reid Silvio Savarese 154 4,182 0 25 Feb 2019
Non-local Neural Networks Xinyu Wang Ross B. Girshick Abhinav Gupta Kaiming He OffRL 303 8,918 0 21 Nov 2017