MAPL: Parameter-Efficient Adaptation of Unimodal Pre-Trained Models for
Vision-Language Few-Shot Prompting

MAPL: Parameter-Efficient Adaptation of Unimodal Pre-Trained Models for Vision-Language Few-Shot Prompting

13 October 2022

Pau Rodríguez López

Aida Nematzadeh

Aishwarya Agrawal

Papers citing "MAPL: Parameter-Efficient Adaptation of Unimodal Pre-Trained Models for Vision-Language Few-Shot Prompting"

18 / 18 papers shown

Title
Decoupled Global-Local Alignment for Improving Compositional Understanding Xiaoxing Hu Kaicheng Yang Jianmin Wang Haoran Xu Ziyong Feng Yansen Wang VLM 159 0 0 23 Apr 2025
CTRL-O: Language-Controllable Object-Centric Visual Representation Learning Aniket Didolkar Andrii Zadaianchuk Rabiul Awal Maximilian Seitzer E. Gavves Aishwarya Agrawal OCL VLM 89 2 0 27 Mar 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 102 48 0 03 Jan 2025
M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios Ning Liao Xiaopeng Zhang Minglu Cao Junchi Yan VPVLM VLM 66 0 0 31 Dec 2024
Vision-Language Models under Cultural and Inclusive Considerations Antonia Karamolegkou Phillip Rust Yong Cao Ruixiang Cui Anders Søgaard Daniel Hershcovich VLM 53 7 0 08 Jul 2024
A Concept-Based Explainability Framework for Large Multimodal Models Jayneel Parekh Pegah Khayatan Mustafa Shukor A. Newson Matthieu Cord 40 16 0 12 Jun 2024
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts Yunshi Lan Xiang Li Xin Liu Yang Li Wei Qin Weining Qian LRM ReLM 41 24 0 15 Nov 2023
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering Rabiul Awal Le Zhang Aishwarya Agrawal LRM 46 12 0 16 Jun 2023
InstructEdit: Improving Automatic Masks for Diffusion-based Image Editing With User Instructions Qian Wang Biao Zhang Michael Birsak Peter Wonka DiffM 30 31 0 29 May 2023
Pengi: An Audio Language Model for Audio Tasks Soham Deshmukh Benjamin Elizalde Rita Singh Huaming Wang MLLM AuLLM 36 158 0 19 May 2023
COLA: A Benchmark for Compositional Text-to-image Retrieval Arijit Ray Filip Radenovic Abhimanyu Dubey Bryan A. Plummer Ranjay Krishna Kate Saenko CoGe VLM 41 34 0 05 May 2023
Efficient Multimodal Fusion via Interactive Prompting Yaowei Li Ruijie Quan Linchao Zhu Yezhou Yang 35 44 0 13 Apr 2023
Linearly Mapping from Image to Text Space Jack Merullo Louis Castricato Carsten Eickhoff Ellie Pavlick VLM 170 105 0 30 Sep 2022
Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization Aishwarya Agrawal Ivana Kajić Emanuele Bugliarello Elnaz Davoodi Anita Gergely Phil Blunsom Aida Nematzadeh OOD 40 17 0 24 May 2022
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 180 402 0 10 Sep 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 322 3,708 0 11 Feb 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Joey Tianyi Zhou MLLM 277 525 0 04 Feb 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 279 1,996 0 31 Dec 2020