v1v2v3 (latest)

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

30 January 2023

Silvio Savarese

Papers citing "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models"

2 / 2,352 papers shown

Title
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets Marcella Cornia Lorenzo Baraldi G. Fiameni Rita Cucchiara 109 12 0 24 Nov 2021
Towards Language-guided Visual Recognition via Dynamic Convolutions Gen Luo Yiyi Zhou Xiaoshuai Sun Yongjian Wu Yue Gao Rongrong Ji ObjD 98 19 0 17 Oct 2021