ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images

29 April 2024

Papers citing "ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images"

6 / 6 papers shown

Title
ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering Nghia Hieu Nguyen Tho Thanh Quan Ngan Luu-Thuy Nguyen 31 0 0 18 Oct 2024
MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering Jingqun Tang Qi Liu Yongjie Ye Jinghui Lu Shubo Wei ... Yanjie Wang Yuliang Liu Hao Liu Xiang Bai Can Huang 46 22 0 20 May 2024
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images Quan Van Nguyen Dan Quang Tran Huy Quang Pham Thang Kien-Bao Nguyen Nghia Hieu Nguyen Kiet Van Nguyen Ngan Luu-Thuy Nguyen CoGe 39 3 0 16 Apr 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 287 4,261 0 30 Jan 2023
PreSTU: Pre-Training for Scene-Text Understanding Jihyung Kil Soravit Changpinyo Xi Chen Hexiang Hu Sebastian Goodman Wei-Lun Chao Radu Soricut VLM 140 29 0 12 Sep 2022
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Joey Tianyi Zhou MLLM 277 525 0 04 Feb 2021