VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning

19 March 2024

Papers citing "VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning"

15 / 15 papers shown

Title
Vision-Language In-Context Learning Driven Few-Shot Visual Inspection Model Shiryu Ueno Yoshikazu Hayashi Shunsuke Nakatsuka Yusei Yamada Hiroaki Aizawa K. Kato MLLM VLM 136 0 0 13 Feb 2025
From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning Nan Xu Fei Wang Sheng Zhang Hoifung Poon Muhao Chen 79 6 0 01 Jul 2024
Generative Multimodal Models are In-Context Learners Quan-Sen Sun Yufeng Cui Xiaosong Zhang Fan Zhang Qiying Yu ... Yueze Wang Yongming Rao Jingjing Liu Tiejun Huang Xinlong Wang MLLM LRM 112 265 0 20 Dec 2023
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition Pan Zhang Xiaoyi Wang Bin Wang Yuhang Cao Chao Xu ... Conghui He Xingcheng Zhang Yu Qiao Da Lin Jiaqi Wang MLLM 108 231 0 26 Sep 2023
Images Speak in Images: A Generalist Painter for In-Context Visual Learning Xinlong Wang Wen Wang Yue Cao Chunhua Shen Tiejun Huang VLM MLLM 87 249 0 05 Dec 2022
T-NER: An All-Round Python Library for Transformer-based Named Entity Recognition Asahi Ushio Jose Camacho-Collados 39 74 0 09 Sep 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 288 3,458 0 29 Apr 2022
MetaICL: Learning to Learn In Context Sewon Min M. Lewis Luke Zettlemoyer Hannaneh Hajishirzi LRM 173 483 0 29 Oct 2021
Multimodal Few-Shot Learning with Frozen Language Models Maria Tsimpoukelli Jacob Menick Serkan Cabi S. M. Ali Eslami Oriol Vinyals Felix Hill MLLM 127 766 0 25 Jun 2021
TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text Amanpreet Singh Guan Pang Mandy Toh Jing Huang Wojciech Galuba Tal Hassner 44 167 0 12 May 2021
Meta-Learning in Neural Networks: A Survey Timothy M. Hospedales Antreas Antoniou P. Micaelli Amos Storkey OOD 303 1,950 0 11 Apr 2020
VizWiz Grand Challenge: Answering Visual Questions from Blind People Danna Gurari Qing Li Abigale Stangl Anhong Guo Chi Lin Kristen Grauman Jiebo Luo Jeffrey P. Bigham CoGe 68 831 0 22 Feb 2018
Learning to Compare: Relation Network for Few-Shot Learning Flood Sung Yongxin Yang Li Zhang Tao Xiang Philip Torr Timothy M. Hospedales 209 4,035 0 16 Nov 2017
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Li Fei-Fei C. L. Zitnick Ross B. Girshick CoGe 280 2,346 0 20 Dec 2016
Matching Networks for One Shot Learning Oriol Vinyals Charles Blundell Timothy Lillicrap Koray Kavukcuoglu Daan Wierstra VLM 297 7,299 0 13 Jun 2016