xGQA: Cross-Lingual Visual Question Answering

13 September 2021

Papers citing "xGQA: Cross-Lingual Visual Question Answering"

50 / 52 papers shown

Title
Benchmarking Vision Language Models on German Factual Data René Peinl Vincent Tischler CoGe 61 0 0 15 Apr 2025
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users Antonia Karamolegkou Malvina Nikandrou Georgios Pantazopoulos Danae Sanchez Villegas Phillip Rust Ruchira Dhar Daniel Hershcovich Anders Søgaard 39 0 0 28 Mar 2025
PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model Junyuan Gao Jiahe Song J. Wu Runchuan Zhu Guanlin Shen ... Weijia Li Bin Wang D. Lin Lijun Wu Conghui He 81 0 0 24 Mar 2025
Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models Shintaro Ozaki Kazuki Hayashi Yusuke Sakai Hidetaka Kamigaito Katsuhiko Hayashi Taro Watanabe LRM 102 1 0 17 Feb 2025
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages Ashmal Vayani Dinura Dissanayake Hasindri Watawana Noor Ahsan Nevasini Sasikumar ... Monojit Choudhury Ivan Laptev Mubarak Shah Salman Khan Fahad A Khan 124 8 0 25 Nov 2024
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation Shota Onohara Atsuyuki Miyai Yuki Imajuku Kazuki Egashira Jeonghun Baek Xiang Yue Graham Neubig Kiyoharu Aizawa OSLM 112 1 0 22 Oct 2024
ChitroJera: A Regionally Relevant Visual Question Answering Dataset for Bangla Deeparghya Dutta Barua Md Sakib Ul Rahman Sourove Md Farhan Ishmam Fabiha Haider Fariha Tanjim Shifat Md Fahim Md Farhad Alam 24 0 0 19 Oct 2024
OD-Stega: LLM-Based Near-Imperceptible Steganography via Optimized Distributions Yu-Shin Huang Peter Just Krishna Narayanan Chao Tian 34 1 0 06 Oct 2024
FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture Wenyan Li Xinyu Crystina Zhang Jiaang Li Qiwei Peng Raphael Tang ... Guimin Hu Yifei Yuan Anders Søgaard Daniel Hershcovich Desmond Elliott CoGe 27 7 0 16 Jun 2024
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus Matthieu Futeral A. Zebaze Pedro Ortiz Suarez Julien Abadji Rémi Lacroix Cordelia Schmid Rachel Bawden Benoît Sagot 39 3 0 13 Jun 2024
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark David Romero Chenyang Lyu Haryo Akbarianto Wibowo Teresa Lynn Injy Hamed ... Oana Ignat Joan Nwatu Rada Mihalcea Thamar Solorio Alham Fikri Aji 48 25 0 10 Jun 2024
Multilingual Diversity Improves Vision-Language Representations Thao Nguyen Matthew Wallingford Sebastin Santy Wei-Chiu Ma Sewoong Oh Ludwig Schmidt Pang Wei Koh Ranjay Krishna VLM 35 5 0 27 May 2024
No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models Angeline Pouget Lucas Beyer Emanuele Bugliarello Xiao Wang Andreas Steiner Xiao-Qi Zhai Ibrahim M. Alabdulmohsin VLM 33 7 0 22 May 2024
MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering Jingqun Tang Qi Liu Yongjie Ye Jinghui Lu Shubo Wei ... Yanjie Wang Yuliang Liu Hao Liu Xiang Bai Can Huang 43 22 0 20 May 2024
Conditional computation in neural networks: principles and research trends Simone Scardapane Alessandro Baiocchi Alessio Devoto V. Marsocci Pasquale Minervini Jary Pomponi 34 1 0 12 Mar 2024
What is "Typological Diversity" in NLP? Esther Ploeger Wessel Poelman Miryam de Lhoneux Johannes Bjerva 22 2 0 06 Feb 2024
Image Translation as Diffusion Visual Programmers Cheng Han James Liang Qifan Wang Majid Rabbani S. Dianat Raghuveer M. Rao Ying Nian Wu Dongfang Liu 29 8 0 18 Jan 2024
From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities Md Farhan Ishmam Md Sakib Hossain Shovon M. F. Mridha Nilanjan Dey 35 36 0 01 Nov 2023
Semantic and Expressive Variation in Image Captions Across Languages Andre Ye Sebastin Santy Jena D. Hwang Amy X. Zhang Ranjay Krishna VLM 53 3 0 22 Oct 2023
ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding Guojun Wu VLM MLLM 27 0 0 19 Oct 2023
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages Jinyi Hu Yuan Yao Chong Wang Shanonan Wang Yinxu Pan ... Yankai Lin Jiao Xue Dahai Li Zhiyuan Liu Maosong Sun MLLM VLM 31 48 0 23 Aug 2023
Robust Visual Question Answering: Datasets, Methods, and Future Challenges Jie Ma Pinghui Wang Dechen Kong Zewei Wang Jun Liu Hongbin Pei Junzhou Zhao OOD 26 18 0 21 Jul 2023
mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs Gregor Geigle Abhay Jain Radu Timofte Goran Glavavs VLM MLLM 18 29 0 13 Jul 2023
Efficient Domain Adaptation of Sentence Embeddings Using Adapters Tim Schopf Dennis Schneider Florian Matthes 28 5 0 06 Jul 2023
Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages Yasmine Karoui R. Lebret Negar Foroutan Karl Aberer MLLM VLM 32 1 0 29 Jun 2023
Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations Gregor Geigle Radu Timofte Goran Glavas VLM MLLM 28 5 0 14 Jun 2023
Using Visual Cropping to Enhance Fine-Detail Question Answering of BLIP-Family Models Jiarui Zhang Mahyar Khayatkhoei P. Chhikara Filip Ilievski 27 1 0 31 May 2023
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language Shantipriya Parida Idris Abdulmumin Shamsuddeen Hassan Muhammad Aneesh Bose Guneet Singh Kohli I. Ahmad Ketan Kotwal S. Sarkar Ondrej Bojar Habeebah Adamu Kakudi 24 4 0 28 May 2023
Meta-learning For Vision-and-language Cross-lingual Transfer Hanxu Hu Frank Keller VLM 25 1 0 24 May 2023
RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training Chulun Zhou Yunlong Liang Fandong Meng Jinan Xu Jinsong Su Jie Zhou VLM 23 4 0 13 May 2023
EVJVQA Challenge: Multilingual Visual Question Answering N. Nguyen Nghia Hieu Nguyen Duong T.D. Vo K. Tran Kiet Van Nguyen 30 7 0 23 Feb 2023
Modular Deep Learning Jonas Pfeiffer Sebastian Ruder Ivan Vulić E. Ponti MoMe OOD 29 73 0 22 Feb 2023
Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation Matthieu Futeral Cordelia Schmid Ivan Laptev Benoît Sagot Rachel Bawden 31 26 0 20 Dec 2022
ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for Understanding and Generation Bin Shan Yaqian Han Weichong Yin Shuohuan Wang Yu Sun Hao Tian Hua-Hong Wu Haifeng Wang MLLM VLM 13 7 0 09 Nov 2022
Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities Khyathi Raghavi Chandu A. Geramifard 37 3 0 30 Oct 2022
Multilingual Multimodal Learning with Machine Translated Text Chen Qiu Dan Oneaţă Emanuele Bugliarello Stella Frank Desmond Elliott 45 13 0 24 Oct 2022
PaLI: A Jointly-Scaled Multilingual Language-Image Model Xi Chen Tianlin Li Soravit Changpinyo A. Piergiovanni Piotr Padlewski ... Andreas Steiner A. Angelova Xiaohua Zhai N. Houlsby Radu Soricut MLLM VLM 37 682 0 14 Sep 2022
WildQA: In-the-Wild Video Question Answering Santiago Castro Naihao Deng Pingxuan Huang Mihai Burzo Rada Mihalcea 70 7 0 14 Sep 2022
MaXM: Towards Multilingual Visual Question Answering Soravit Changpinyo Linting Xue Michal Yarom Ashish V. Thapliyal Idan Szpektor J. Amelot Xi Chen Radu Soricut 33 8 0 12 Sep 2022
Improving the Cross-Lingual Generalisation in Visual Question Answering Farhad Nooralahzadeh Rico Sennrich 24 5 0 07 Sep 2022
Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training Yan Zeng Wangchunshu Zhou Ao Luo Ziming Cheng Xinsong Zhang VLM 24 30 0 01 Jun 2022
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition Liang Zhang Anwen Hu Qin Jin VLM 25 5 0 29 May 2022
One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia Alham Fikri Aji Genta Indra Winata Fajri Koto Samuel Cahyawijaya Ade Romadhony ... David Moeljadi Radityo Eko Prasojo Timothy Baldwin Jey Han Lau Sebastian Ruder 40 98 0 24 Mar 2022
Delving Deeper into Cross-lingual Visual Question Answering Chen Cecilia Liu Jonas Pfeiffer Anna Korhonen Ivan Vulić Iryna Gurevych 28 8 0 15 Feb 2022
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages Emanuele Bugliarello Fangyu Liu Jonas Pfeiffer Siva Reddy Desmond Elliott E. Ponti Ivan Vulić MLLM VLM ELM 48 62 0 27 Jan 2022
Visually Grounded Reasoning across Languages and Cultures Fangyu Liu Emanuele Bugliarello E. Ponti Siva Reddy Nigel Collier Desmond Elliott VLM LRM 106 168 0 28 Sep 2021
QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension Anna Rogers Matt Gardner Isabelle Augenstein 27 163 0 27 Jul 2021
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Krishna Srinivasan K. Raman Jiecao Chen Michael Bendersky Marc Najork VLM 208 310 0 02 Mar 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 298 3,700 0 11 Feb 2021
VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao ObjD VLM 260 157 0 02 Jan 2021