SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs

7 August 2023

Papers citing "SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs"

16 / 16 papers shown

Title
Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput Bo Zhang Shuo Li Runhe Tian Yang Yang Jixin Tang Jinhao Zhou Lin Ma VLM 31 0 0 14 May 2025
DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts Ling Zhong Yujing Lu Jing Yang Weiming Li Peng Wei Yongheng Wang Manni Duan Qing Zhang 47 1 0 25 Mar 2025
Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts Xiangnan Chen Yuancheng Fang Qian Xiao Juncheng Billy Li J. Lin Siliang Tang Yi Yang Yueting Zhuang 70 0 0 06 Mar 2025
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation Yuqing Yang Ajay Patel Matt Deitke Tanmay Gupta Luca Weihs ... Mark Yatskar Chris Callison-Burch Ranjay Krishna Aniruddha Kembhavi Christopher Clark SyDa 78 2 0 20 Feb 2025
Patent Figure Classification using Large Vision-language Models Sushil Awale Eric Müller-Budack Ralph Ewerth 38 0 0 22 Jan 2025
MULTI: Multimodal Understanding Leaderboard with Text and Images Zichen Zhu Yang Xu Lu Chen Jingkai Yang Yichuan Ma ... Yingzi Ma Situo Zhang Zihan Zhao Liangtai Sun Kai Yu VLM 54 5 0 08 Jan 2025
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation Manan Suri Puneet Mathur Franck Dernoncourt Kanika Goswami Ryan Rossi Dinesh Manocha 99 3 0 14 Dec 2024
jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images Andreas Koukounas Georgios Mastrapas Bo Wang Mohammad Kalim Akram Sedigheh Eslami Michael Gunther Isabelle Mohr Saba Sturua Scott Martens Nan Wang VLM 115 7 0 11 Dec 2024
GeNet: A Multimodal LLM-Based Co-Pilot for Network Topology and Configuration Beni Ifland Elad Duani Rubin Krief Miro Ohana Aviram Zilberman ... Ortal Lavi Hikichi Kenji A. Shabtai Yuval Elovici Rami Puzis 38 3 0 11 Jul 2024
Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training Mengzhao Jia Zhihan Zhang Wenhao Yu Fangkai Jiao Meng Jiang VLM ReLM LRM 64 8 0 22 Apr 2024
ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning Fanqing Meng Wenqi Shao Quanfeng Lu Peng Gao Kaipeng Zhang Yu Qiao Ping Luo 34 46 0 04 Jan 2024
MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning Fuxiao Liu Xiaoyang Wang Wenlin Yao Jianshu Chen Kaiqiang Song Sangwoo Cho Yaser Yacoob Dong Yu 24 100 0 15 Nov 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 208 905 0 27 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 320 4,261 0 30 Jan 2023
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 169 263 0 07 Oct 2022
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 180 402 0 10 Sep 2021