v1v2v3 (latest)

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

30 January 2023

Silvio Savarese

Papers citing "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models"

50 / 2,352 papers shown

Title
Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models Tianrun Chen Chunan Yu Jing Li Jianqi Zhang Lanyun Zhu Deyi Ji Yong Zhang Ying Zang Zejian Li Lingyun Sun LRM 107 9 0 29 May 2024
Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer Zengqun Zhao Yu Cao Shaogang Gong Ioannis Patras 120 7 0 29 May 2024
Kestrel: Point Grounding Multimodal LLM for Part-Aware 3D Vision-Language Understanding Junjie Fei Mahmoud Ahmed Jian Ding Eslam Mohamed Bakr Mohamed Elhoseiny 72 4 0 29 May 2024
MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model Ziqi Ren Jie Li Xuetong Xue Xin Li Fan Yang Zhicheng Jiao Xinbo Gao 97 3 0 29 May 2024
LLaMA-Reg: Using LLaMA 2 for Unsupervised Medical Image Registration Mingrui Ma Yu Yang LM&MA 74 2 0 29 May 2024
SketchDeco: Decorating B&W Sketches with Colour Chaitat Utintu Pinaki Nath Chowdhury Aneeshan Sain Subhadeep Koley A. Bhunia Yi-Zhe Song DiffM 69 3 0 29 May 2024
Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities Vicky Zayats Peter Chen Melissa Ferrari Dirk Padfield AI4CE 79 1 0 29 May 2024
VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos Ziyang Wang Shoubin Yu Elias Stengel-Eskin Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal 153 70 0 29 May 2024
I See You: Teacher Analytics with GPT-4 Vision-Powered Observational Assessment Unggi Lee Yeil Jeong Junbo Koh Gyuri Byun Yunseo Lee Hyunwoong Lee Seunmin Eun Jewoong Moon Cheolil Lim Hyeoncheol Kim 37 3 0 28 May 2024
Why are Visually-Grounded Language Models Bad at Image Classification? Yuhui Zhang Alyssa Unell Xiaohan Wang Dhruba Ghosh Yuchang Su Ludwig Schmidt Serena Yeung-Levy VLM 96 37 0 28 May 2024
Dataset Growth Ziheng Qin Zhaopan Xu Yukun Zhou Zangwei Zheng Zebang Cheng ... Xiaojiang Peng Radu Timofte Hongxun Yao Kai Wang Yang You DD 48 2 0 28 May 2024
Multi-modal Generation via Cross-Modal In-Context Learning Amandeep Kumar Muzammal Naseer Sanath Narayan Rao Muhammad Anwer Salman Khan Hisham Cholakkal MLLM 95 1 0 28 May 2024
Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention Weitai Kang Mengxue Qu Jyoti Kini Yunchao Wei Mubarak Shah Yan Yan LM&Ro 3DPC 110 10 0 28 May 2024
ToonCrafter: Generative Cartoon Interpolation Jinbo Xing Hanyuan Liu Menghan Xia Yong Zhang Xintao Wang Ying Shan Tien-Tsin Wong 119 33 0 28 May 2024
The Evolution of Multimodal Model Architectures S. Wadekar Abhishek Chaurasia Aman Chadha Eugenio Culurciello 111 18 0 28 May 2024
Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment Xin Xiao Bohong Wu Jiacong Wang Chunyuan Li Xun Zhou Haoyuan Guo VLM 73 9 0 28 May 2024
Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model Haogeng Liu Quanzeng You Xiaotian Han Yongfei Liu Huaibo Huang Ran He Hongxia Yang 55 3 0 28 May 2024
FAIntbench: A Holistic and Precise Benchmark for Bias Evaluation in Text-to-Image Models Hanjun Luo Ziye Deng Ruizhe Chen Zuo-Qiang Liu EGVM 159 9 0 28 May 2024
Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models Sangmin Woo Donguk Kim Jaehyuk Jang Yubin Choi Changick Kim 117 15 0 28 May 2024
Cross-Modal Safety Alignment: Is textual unlearning all you need? Trishna Chakraborty Erfan Shayegani Zikui Cai Nael B. Abu-Ghazaleh M. Salman Asif Yue Dong Amit K. Roy-Chowdhury Chengyu Song 88 18 0 27 May 2024
MindMerger: Efficient Boosting LLM Reasoning in non-English Languages Zixian Huang Wenhao Zhu Gong Cheng Lei Li Fei Yuan LRM 93 14 0 27 May 2024
LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding Haoyu Zhao Wenhang Ge Ying-Cong Chen ObjD MLLM VLM 90 5 0 27 May 2024
SelfCP: Compressing Over-Limit Prompt via the Frozen Large Language Model Itself Jun Gao Ziqiang Cao Wenjie Li 63 7 0 27 May 2024
UIT-DarkCow team at ImageCLEFmedical Caption 2024: Diagnostic Captioning for Radiology Images Efficiency with Transformer Models Quan Van Nguyen Huy Quang Pham Dan Quang Tran Thang Kien-Bao Nguyen Nhat-Hao Nguyen-Dang Bao-Thien Nguyen-Tat MedIm 67 2 0 27 May 2024
Vision-and-Language Navigation Generative Pretrained Transformer Hanlin Wen LM&Ro 100 0 0 27 May 2024
Multilingual Diversity Improves Vision-Language Representations Thao Nguyen Matthew Wallingford Sebastin Santy Wei-Chiu Ma Sewoong Oh Ludwig Schmidt Pang Wei Koh Ranjay Krishna VLM 77 6 0 27 May 2024
Hawk: Learning to Understand Open-World Video Anomalies Jiaqi Tang Hao Lu Ruizheng Wu Xiaogang Xu Ke Ma Cheng Fang Bin Guo Jiangbo Lu Qifeng Chen Ying-Cong Chen VLM 70 13 0 27 May 2024
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction Yinda Chen Haoyuan Shi Xiaoyu Liu Te Shi Ruobing Zhang Dong Liu Zhiwei Xiong Feng Wu 98 10 0 27 May 2024
ARC: A Generalist Graph Anomaly Detector with In-Context Learning Yixin Liu Shiyuan Li Yu Zheng Qingfeng Chen Chengqi Zhang Shirui Pan 85 14 0 27 May 2024
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence Zhuoling Li Xiaogang Xu Zhenhua Xu Sernam Lim Hengshuang Zhao LM&Ro 150 2 0 27 May 2024
Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model Kuan-Chih Huang Xiangtai Li Lu Qi Shuicheng Yan Ming-Hsuan Yang LRM 177 12 0 27 May 2024
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance Jiannan Huang Jun Hao Liew Hanshu Yan Yuyang Yin Yao Zhao Yunchao Wei Yunchao Wei DiffM 209 7 0 27 May 2024
VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models Zejun Li Ruipu Luo Jiwen Zhang Minghui Qiu Zhongyu Wei Zhongyu Wei LRM MLLM 185 17 0 27 May 2024
Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs Mustafa Shukor Matthieu Cord 143 5 0 26 May 2024
Compressing Lengthy Context With UltraGist Peitian Zhang Zheng Liu Shitao Xiao Ninglu Shao Qiwei Ye Zhicheng Dou 46 4 0 26 May 2024
Map-based Modular Approach for Zero-shot Embodied Question Answering Koya Sakamoto Daich Azuma Taiki Miyanishi Shuhei Kurita M. Kawanabe 88 3 0 26 May 2024
ECG Semantic Integrator (ESI): A Foundation ECG Model Pretrained with LLM-Enhanced Cardiological Text Han Yu Peikun Guo Akane Sano 80 19 0 26 May 2024
CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection Lin Zhu Yifeng Yang Qinying Gu Xinbing Wang Cheng Zhou Nanyang Ye VLM 119 2 0 26 May 2024
Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character Siyuan Ma Weidi Luo Yu Wang Xiaogeng Liu 132 29 0 25 May 2024
Client2Vec: Improving Federated Learning by Distribution Shifts Aware Client Indexing Yongxin Guo Lin Wang Xiaoying Tang Tao R. Lin FedML OOD 104 0 0 25 May 2024
Accelerating Transformers with Spectrum-Preserving Token Merging Hoai-Chau Tran D. M. Nguyen Duy M. Nguyen Trung Thanh Nguyen Ngan Le Pengtao Xie Daniel Sonntag James Y. Zou Binh T. Nguyen Mathias Niepert 106 13 0 25 May 2024
OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All Yuanhuiyi Lyu Xueye Zheng Dahun Kim Lin Wang 107 17 0 25 May 2024
Streaming Long Video Understanding with Large Language Models Rui Qian Xiao-wen Dong Pan Zhang Yuhang Zang Shuangrui Ding Dahua Lin Jiaqi Wang VLM 139 49 0 25 May 2024
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models Chunjiang Ge Sijie Cheng Xiangqi Jin Jiale Yuan Yuan Gao Jun Song Shiji Song Gao Huang Bo Zheng MLLM VLM 96 17 0 24 May 2024
Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models Yue Zhang Hehe Fan Yi Yang 98 3 0 24 May 2024
Composed Image Retrieval for Remote Sensing Bill Psomas Ioannis Kakogeorgiou Nikos Efthymiadis Giorgos Tolias Ondřej Chum Yannis Avrithis Konstantinos Karantzalos 98 7 0 24 May 2024
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models Byung-Kwan Lee Chae Won Kim Beomchan Park Yonghyun Ro MLLM LRM 145 21 0 24 May 2024
Language-Driven Interactive Traffic Trajectory Generation Junkai Xia Chenxin Xu Qingyao Xu Chen Xie Yanfeng Wang Siheng Chen 99 12 0 24 May 2024
V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM Abdur Rahman Rajat Chawla Muskaan Kumar Arkajit Datta Adarsh Jha NS Mukunda Ishaan Bhola 113 3 0 24 May 2024
Towards Understanding the Working Mechanism of Text-to-Image Diffusion Model Mingyang Yi Aoxue Li Yi Xin Zhenguo Li DiffM 135 13 0 24 May 2024