Papers citing "Pearl: A Multimodal Culturally-Aware Arabic Instruction Dataset"

25 / 25 papers shown

Title
Aya Vision: Advancing the Frontier of Multilingual Multimodality Saurabh Dash Yiyang Nan John Dang Arash Ahmadian Shivalika Singh ... Sudip Roy Matthias Gallé Beyza Ermis Ahmet Üstün Sara Hooker VLM 52 7 0 13 May 2025
JEEM: Vision-Language Understanding in Four Arabic Dialects Karima Kadaoui Hanin Atwany Hamdan Al-Ali Abdelrahman Mohamed Ali Mekky Sergei Tilga Natalia Fedorova Ekaterina Artemova Hanan Aldarmaki Yova Kementchedjhieva VLM 84 4 0 27 Mar 2025
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking Florian Schneider Carolin Holtermann Chris Biemann Anne Lauscher 64 2 0 20 Feb 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 344 699 0 20 Feb 2025
CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries Shudong Liu Yiqiao Jin Cheng-rong Li Derek F. Wong Qingsong Wen Lichao Sun Hong Chen Xing Xie Jindong Wang VLM 94 12 0 03 Jan 2025
Survey of Cultural Awareness in Language Models: Text and Beyond Siddhesh Pawar Junyeong Park Jiho Jin Arnav Arora Junho Myung Srishti Yadav Faiz Ghifari Haznitrama Inhwa Song Alice Oh Isabelle Augenstein 67 35 0 30 Oct 2024
CAMEL-Bench: A Comprehensive Arabic LMM Benchmark Sara Ghaboura Ahmed Heakl Omkar Thawakar Ali Alharthi Ines Riahi Abduljalil Saif Jorma T. Laaksonen Fahad Shahbaz Khan Salman Khan Rao Muhammad Anwer 70 3 0 24 Oct 2024
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation Shota Onohara Atsuyuki Miyai Yuki Imajuku Kazuki Egashira Jeonghun Baek Xiang Yue Graham Neubig Kiyoharu Aizawa OSLM 221 6 0 22 Oct 2024
M5 -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks Florian Schneider Sunayana Sitaram VLM 66 12 0 04 Jul 2024
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration Yujin Baek Yujin Baek J. Kim Yu-Jung Heo Du-Seong Chang Jaegul Choo 67 6 0 24 Jun 2024
See It from My Perspective: How Language Affects Cultural Bias in Image Understanding Amith Ananthram Elias Stengel-Eskin Carl Vondrick Joey Tianyi Zhou VLM 100 7 0 17 Jun 2024
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark David Romero Chenyang Lyu Haryo Akbarianto Wibowo Teresa Lynn Injy Hamed ... Oana Ignat Joan Nwatu Rada Mihalcea Thamar Solorio Alham Fikri Aji 102 43 0 10 Jun 2024
How Culturally Aware are Vision-Language Models? Olena Burda-Lassen Aman Chadha Shashank Goswami Vinija Jain VLM 138 1 0 24 May 2024
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images Quan Van Nguyen Dan Quang Tran Huy Quang Pham Thang Kien-Bao Nguyen Nghia Hieu Nguyen Kiet Van Nguyen Ngan Luu-Thuy Nguyen CoGe 128 5 0 16 Apr 2024
Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning Hao Shao Shengju Qian Han Xiao Guanglu Song Zhuofan Zong Letian Wang Yu Liu Hongsheng Li VGen LRM MLLM 110 77 0 25 Mar 2024
Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks Fakhraddin Alwajih El Moatez Billah Nagoudi Gagan Bhatia Abdelrahman Mohamed Muhammad Abdul-Mageed VLM LRM 69 12 0 01 Mar 2024
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities Boyuan Chen Zhuo Xu Sean Kirmani Brian Ichter Danny Driess Pete Florence Dorsa Sadigh Leonidas Guibas Fei Xia LRM ReLM 77 270 0 22 Jan 2024
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning Yiqi Wang Wentao Chen Xiaotian Han Xudong Lin Haiteng Zhao Yongfei Liu Bohan Zhai Jianbo Yuan Quanzeng You Hongxia Yang LRM 86 87 0 10 Jan 2024
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models Xiaotian Han Quanzeng You Yongfei Liu Wentao Chen Huangjie Zheng ... Yiqi Wang Bohan Zhai Jianbo Yuan Heng Wang Hongxia Yang ReLM LRM ELM 153 10 0 20 Nov 2023
Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models Zheng Ma Mianzhi Pan Wenhan Wu Ka Leong Cheng Jianbing Zhang Shujian Huang Jiajun Chen VLM CoGe 60 5 0 06 Aug 2023
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities Weihao Yu Zhengyuan Yang Linjie Li Jianfeng Wang Kevin Qinghong Lin Zicheng Liu Xinchao Wang Lijuan Wang MLLM 107 719 0 04 Aug 2023
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language Shantipriya Parida Idris Abdulmumin Shamsuddeen Hassan Muhammad Aneesh Bose Guneet Singh Kohli Ibrahim Said Ahmad Ketan Kotwal S. Sarkar Ondrej Bojar Habeebah Adamu Kakudi 75 7 0 28 May 2023
Visually Grounded Reasoning across Languages and Cultures Fangyu Liu Emanuele Bugliarello Edoardo Ponti Siva Reddy Nigel Collier Desmond Elliott VLM LRM 154 180 0 28 Sep 2021
xGQA: Cross-Lingual Visual Question Answering Jonas Pfeiffer Gregor Geigle Aishwarya Kamath Jan-Martin O. Steitz Stefan Roth Ivan Vulić Iryna Gurevych 87 62 0 13 Sep 2021
Measuring Massive Multitask Language Understanding Dan Hendrycks Collin Burns Steven Basart Andy Zou Mantas Mazeika Basel Alomair Jacob Steinhardt ELM RALM 187 4,572 0 07 Sep 2020