Multimodal Contrastive In-Context Learning

Multimodal Contrastive In-Context Learning

23 August 2024

Yosuke Miyanishi

Minh Le Nguyen

ArXiv (abs)PDF HTML

Papers citing "Multimodal Contrastive In-Context Learning"

18 / 18 papers shown

Title
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation Zineng Tang Ziyi Yang Mahmoud Khademi Yang Liu Chenguang Zhu Mohit Bansal LRM MLLM AuLLM 106 51 0 30 Nov 2023
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI Xiang Yue Yuansheng Ni Kai Zhang Tianyu Zheng Ruoqi Liu ... Yibo Liu Wenhao Huang Huan Sun Yu-Chuan Su Wenhu Chen OSLM ELM VLM 234 943 0 27 Nov 2023
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions Wenbo Hu Y. Xu Yuante Li W. Li Zhe Chen Zhuowen Tu MLLM VLM 82 133 0 19 Aug 2023
Towards Understanding In-Context Learning with Contrastive Demonstrations and Saliency Maps Fuxiao Liu Paiheng Xu Zongxi Li Yue Feng Hyemi Song 94 35 0 11 Jul 2023
Language models are better than humans at next-token prediction Buck Shlegeris Fabien Roger Lawrence Chan Euan McLean ELM LRM 65 11 0 21 Dec 2022
Transformers learn in-context by gradient descent J. Oswald Eyvind Niklasson E. Randazzo João Sacramento A. Mordvintsev A. Zhmoginov Max Vladymyrov MLT 112 489 0 15 Dec 2022
On the Evolution of (Hateful) Memes by Means of Multimodal Contrastive Learning Y. Qu Xinlei He S. Pierson Michael Backes Yang Zhang Savvas Zannettou 41 28 0 13 Dec 2022
MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation Jiazhan Feng Qingfeng Sun Can Xu Pu Zhao Yaming Yang Chongyang Tao Dongyan Zhao Qingwei Lin 60 58 0 10 Nov 2022
On Explaining Multimodal Hateful Meme Detection Models Ming Shan Hee Roy Ka-wei Lee Wen-Haw Chong VLM 101 41 0 04 Apr 2022
An Explanation of In-context Learning as Implicit Bayesian Inference Sang Michael Xie Aditi Raghunathan Percy Liang Tengyu Ma ReLM BDL VPVLM LRM 204 759 0 03 Nov 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 967 29,731 0 26 Feb 2021
What Makes Good In-Context Examples for GPT- $3$ ? Jiachang Liu Dinghan Shen Yizhe Zhang Bill Dolan Lawrence Carin Weizhu Chen AAML RALM 385 1,387 0 17 Jan 2021
Contrastive Representation Learning: A Framework and Review Phúc H. Lê Khắc Graham Healy Alan F. Smeaton SSL AI4TS 313 712 0 10 Oct 2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 97 605 0 10 May 2020
Towards VQA Models That Can Read Amanpreet Singh Vivek Natarajan Meet Shah Yu Jiang Xinlei Chen Dhruv Batra Devi Parikh Marcus Rohrbach EgoV 97 1,244 0 18 Apr 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.8K 95,114 0 11 Oct 2018
VizWiz Grand Challenge: Answering Visual Questions from Blind People Danna Gurari Qing Li Abigale Stangl Anhong Guo Chi Lin Kristen Grauman Jiebo Luo Jeffrey P. Bigham CoGe 106 858 0 22 Feb 2018
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 345 3,270 0 02 Dec 2016