InfographicVQA

26 April 2021

Papers citing "InfographicVQA"

22 / 172 papers shown

Title
Sequence-to-Sequence Pre-training with Unified Modality Masking for Visual Document Understanding ShuWei Feng Tianyang Zhan Zhanming Jie Trung Quoc Luong Xiaoran Jin 21 1 0 16 May 2023
Document Understanding Dataset and Evaluation (DUDE) Jordy Van Landeghem Rubèn Pérez Tito Łukasz Borchmann Michal Pietruszka Pawel Józiak ... Bertrand Ackaert Ernest Valveny Matthew Blaschko Sien Moens Tomasz Stanislawek VGen 24 53 0 15 May 2023
On the Hidden Mystery of OCR in Large Multimodal Models Yuliang Liu Zhang Li Mingxin Huang Chunyuan Li Dezhi Peng Mingyu Liu Lianwen Jin Xiang Bai VLM MLLM 34 54 0 13 May 2023
MPMQA: Multimodal Question Answering on Product Manuals Liangfu Zhang Anwen Hu Jing Zhang Shuo Hu Qin Jin 24 9 0 19 Apr 2023
PDFVQA: A New Dataset for Real-World VQA on PDF Documents Yihao Ding Siwen Luo Hyunsuk Chung S. Han 33 17 0 13 Apr 2023
LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization Laura Nguyen Thomas Scialom Benjamin Piwowarski Jacopo Staiano 27 7 0 26 Jan 2023
SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images Ryota Tanaka Kyosuke Nishida Kosuke Nishida Taku Hasegawa Itsumi Saito Kuniko Saito 25 72 0 12 Jan 2023
Hierarchical multimodal transformers for Multi-Page DocVQA Rubèn Pérez Tito Dimosthenis Karatzas Ernest Valveny 13 54 0 07 Dec 2022
Unifying Vision, Text, and Layout for Universal Document Processing Zineng Tang Ziyi Yang Guoxin Wang Yuwei Fang Yang Liu Chenguang Zhu Michael Zeng Chao-Yue Zhang Joey Tianyi Zhou VLM 32 106 0 05 Dec 2022
On Web-based Visual Corpus Construction for Visual Document Understanding Donghyun Kim Teakgyu Hong Moonbin Yim Yoonsik Kim Geewook Kim 34 3 0 07 Nov 2022
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 169 263 0 07 Oct 2022
MUST-VQA: MUltilingual Scene-text VQA Emanuele Vivoli Ali Furkan Biten Andrés Mafla Dimosthenis Karatzas Lluís Gómez 34 6 0 14 Sep 2022
One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text Abhinav Java Shripad Deshmukh Milan Aggarwal Surgan Jandial Mausoom Sarkar Balaji Krishnamurthy 32 3 0 12 Sep 2022
PreSTU: Pre-Training for Scene-Text Understanding Jihyung Kil Soravit Changpinyo Xi Chen Hexiang Hu Sebastian Goodman Wei-Lun Chao Radu Soricut VLM 140 29 0 12 Sep 2022
FETA: Towards Specializing Foundation Models for Expert Task Applications Amit Alfassy Assaf Arbelle Oshri Halimi Sivan Harary Roei Herzig ... Christoph Auer Kate Saenko Peter W. J. Staar Rogerio Feris Leonid Karlinsky 23 19 0 08 Sep 2022
Business Document Information Extraction: Towards Practical Benchmarks Matyás Skalický Stepán Simsa Michal Uřičář Milan Šulc 30 9 0 20 Jun 2022
OCR-IDL: OCR Annotations for Industry Document Library Dataset Ali Furkan Biten Rubèn Pérez Tito Lluís Gómez Ernest Valveny Dimosthenis Karatzas 25 26 0 25 Feb 2022
Recognition-free Question Answering on Handwritten Document Collections Oliver Tüselmann Friedrich Müller Fabian Wolf G. Fink RALM 16 4 0 12 Feb 2022
ICDAR 2021 Competition on Document VisualQuestion Answering Rubèn Pérez Tito Minesh Mathew C. V. Jawahar Ernest Valveny Dimosthenis Karatzas 38 23 0 10 Nov 2021
Towards Natural Language Interfaces for Data Visualization: A Survey Leixian Shen Enya Shen Yuyu Luo Xiaocong Yang Xuming Hu Xiongshuai Zhang Zhiwei Tai Jianmin Wang 29 137 0 08 Sep 2021
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding Yang Xu Yiheng Xu Tengchao Lv Lei Cui Furu Wei ... D. Florêncio Cha Zhang Wanxiang Che Min Zhang Lidong Zhou ViT MLLM 153 498 0 29 Dec 2020
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,746 0 26 Sep 2016