v1v2v3 (latest)

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

30 January 2023

Silvio Savarese

Papers citing "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models"

50 / 2,352 papers shown

Title
Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving Jianbiao Mei Yukai Ma Xuemeng Yang Licheng Wen Xinyu Cai ... Min Dou Botian Shi Liang He Yong-Jin Liu Yu Qiao 105 15 0 24 May 2024
FreezeAsGuard: Mitigating Illegal Adaptation of Diffusion Models via Selective Tensor Freezing Kai Huang Wei Gao 85 2 0 24 May 2024
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement Xiyao Wang Jiuhai Chen Zhaoyang Wang Yuhang Zhou Yiyang Zhou ... Dinesh Manocha Tom Goldstein Parminder Bhatia Furong Huang Cao Xiao 205 38 0 24 May 2024
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception Run Luo Yunshui Li Longze Chen Wanwei He Ting-En Lin ... Zikai Song Xiaobo Xia Tongliang Liu Min Yang Binyuan Hui VLM DiffM 188 22 0 24 May 2024
Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization Beitao Chen Xinyu Lyu Lianli Gao Jingkuan Song Hengtao Shen MLLM 189 12 0 24 May 2024
Calibrated Self-Rewarding Vision Language Models Yiyang Zhou Zhiyuan Fan Dongjie Cheng Sihan Yang Zhaorun Chen Chenhang Cui Xiyao Wang Yun Li Linjun Zhang Huaxiu Yao VLM 145 34 0 23 May 2024
Scalable Visual State Space Model with Fractal Scanning Lv Tang Haoke Xiao Peng-Tao Jiang Hao Zhang Jinwei Chen Yue Liu Mamba 94 8 0 23 May 2024
Boosting Medical Image-based Cancer Detection via Text-guided Supervision from Reports Guangyu Guo Jiawen Yao Yingda Xia Tony C. W. Mok Zhilin Zheng Junwei Han Le Lu Dingwen Zhang Jian Zhou Ling Zhang 68 1 0 23 May 2024
Unveiling the Tapestry of Consistency in Large Vision-Language Models Yuan Zhang Fei Xiao Tao Huang Chun-Kai Fan Hongyuan Dong Jiawen Li Jiacong Wang Kuan Cheng Shanghang Zhang Haoyuan Guo 126 11 0 23 May 2024
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability Fei Zhao Taotian Pang Chunhui Li Zhen Wu Junjie Guo Shangyu Xing Xinyu Dai 83 7 0 23 May 2024
Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models Yongxin Guo Zhenglin Cheng Xiaoying Tang Tao R. Lin Tao Lin MoE 206 9 0 23 May 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 337 54 0 23 May 2024
FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition Ganggui Ding Canyu Zhao Wen Wang Zhen Yang Zide Liu Hao Chen Chunhua Shen DiffM 84 26 0 22 May 2024
Scaling-laws for Large Time-series Models Thomas D. P. Edwards James Alvey Justin Alsing Nam H. Nguyen Benjamin Dan Wandelt AI4TS AIFin 80 7 0 22 May 2024
Dense Connector for MLLMs Huanjin Yao Wenhao Wu Taojiannan Yang Yuxin Song Mengxi Zhang Haocheng Feng Yifan Sun Zhiheng Li Wanli Ouyang Jingdong Wang MLLM VLM 102 25 0 22 May 2024
xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token Xin Cheng Xun Wang Xingxing Zhang Tao Ge Si-Qing Chen Furu Wei Huishuai Zhang Dongyan Zhao 106 36 0 22 May 2024
No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models Angeline Pouget Lucas Beyer Emanuele Bugliarello Xiao Wang Andreas Steiner Xiao-Qi Zhai Ibrahim Alabdulmohsin VLM 94 9 0 22 May 2024
Safety Alignment for Vision Language Models Zhendong Liu Yuanbi Nie Yingshui Tan Xiangyu Yue Qiushi Cui Chongjun Wang Xiaoyong Zhu Bo Zheng VLM MLLM 122 12 0 22 May 2024
Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation Dingwen Zhang Hao Li Diqi He Nian Liu Lechao Cheng Jingdong Wang Junwei Han VLM 81 0 0 22 May 2024
C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning Ji Ma Wei Suo Peng Wang Yanning Zhang VLM 117 0 0 21 May 2024
Text-Video Retrieval with Global-Local Semantic Consistent Learning Haonan Zhang Pengpeng Zeng Lianli Gao Jingkuan Song Yihang Duan Xinyu Lyu Hengtao Shen VLM CLIP 97 2 0 21 May 2024
A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges Huangjun Shen Liangying Shao Wenbo Li Zhibin Lan Zhanyu Liu Jinsong Su 99 3 0 21 May 2024
Context-Enhanced Video Moment Retrieval with Large Language Models Weijia Liu Bo Miao Jiuxin Cao Xueling Zhu Bo Liu Mehwish Nasim Ajmal Mian 130 2 0 21 May 2024
A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data Xinyi Wang Grazziela Figueredo Ruizhe Li Wei Emma Zhang Weitong Chen Xin Chen MedIm ViT 124 2 0 21 May 2024
Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models Jiaqi Li Qianshan Wei Chuanyi Zhang Guilin Qi Miaozeng Du Yongrui Chen Sheng Bi Fan Liu VLM MU 186 17 0 21 May 2024
EmoEdit: Evoking Emotions through Image Manipulation Jingyuan Yang Jiawei Feng Weibin Luo Dani Lischinski Daniel Cohen-Or Hui Huang DiffM 84 2 0 21 May 2024
Imp: Highly Capable Large Multimodal Models for Mobile Devices Zhenwei Shao Zhou Yu Jun Yu Xuecheng Ouyang Lihao Zheng Zhenbiao Gai Mingyang Wang Jiajun Ding 70 11 0 20 May 2024
Depth Prompting for Sensor-Agnostic Depth Estimation Jin-Hwi Park Chanhwi Jeong Junoh Lee Hae-Gon Jeon MDE VLM 92 10 0 20 May 2024
ViViD: Video Virtual Try-on using Diffusion Models Zixun Fang Wei Zhai Aimin Su Hongliang Song Kai Zhu Mao Wang Yu Chen Zhiheng Liu Yang Cao Zheng-jun Zha DiffM VGen 102 14 0 20 May 2024
TinyLLaVA Factory: A Modularized Codebase for Small-scale Large Multimodal Models Junlong Jia Ying Hu Xi Weng Yiming Shi Miao Li ... Baichuan Zhou Ziyu Liu Jie Luo Lei Huang Ji Wu 97 9 0 20 May 2024
Transcriptomics-guided Slide Representation Learning in Computational Pathology Guillaume Jaume Lukas Oldenburg Anurag J. Vaidya Richard J. Chen Drew F. K. Williamson Thomas Peeters Andrew H. Song Faisal Mahmood 114 30 0 19 May 2024
MICap: A Unified Model for Identity-aware Movie Descriptions Haran Raajesh Naveen Reddy Desanur Zeeshan Khan Makarand Tapaswi 79 4 0 19 May 2024
Unifying 3D Vision-Language Understanding via Promptable Queries Ziyu Zhu Zhuofan Zhang Xiaojian Ma Xuesong Niu Yixin Chen Baoxiong Jia Zhidong Deng Siyuan Huang Qing Li 118 32 0 19 May 2024
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts Yunxin Li Shenyuan Jiang Baotian Hu Longyue Wang Wanqi Zhong Wenhan Luo Lin Ma Min Zhang MoE 111 42 0 18 May 2024
ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing Ying Jin Pengyang Ling Xiao-wen Dong Pan Zhang Jiaqi Wang Dahua Lin 88 3 0 18 May 2024
Automated Multi-level Preference for MLLMs Mengxi Zhang Wenhao Wu Yu Lu Yuxin Song Kang Rong ... Jianbo Zhao Fanglong Liu Yifan Sun Haocheng Feng Jingdong Wang MLLM 125 15 0 18 May 2024
Efficient Multimodal Large Language Models: A Survey Yizhang Jin Jian Li Yexin Liu Tianjun Gu Kai Wu ... Xin Tan Zhenye Gan Yabiao Wang Chengjie Wang Lizhuang Ma LRM 122 58 0 17 May 2024
HARIS: Human-Like Attention for Reference Image Segmentation Mengxi Zhang Heqing Lian Yiming Liu Jie Chen VLM 75 0 0 17 May 2024
Grounded 3D-LLM with Referent Tokens Yilun Chen Shuai Yang Haifeng Huang Tai Wang Ruiyuan Lyu Runsen Xu Dahua Lin Jiangmiao Pang 113 37 0 16 May 2024
FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models Adrian Bulat Yassine Ouali Georgios Tzimiropoulos VLM 108 5 0 16 May 2024
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models Xianzheng Ma Yash Bhalgat Brandon Smart Shuai Chen Xinghui Li ... Matthias Nießner Ian D Reid Angel X. Chang Iro Laina V. Prisacariu LRM 132 21 0 16 May 2024
An Integrated Framework for Multi-Granular Explanation of Video Summarization K. Tsigos Evlampios Apostolidis Vasileios Mezaris 63 1 0 16 May 2024
Adversarial Robustness for Visual Grounding of Multimodal Large Language Models Kuofeng Gao Yang Bai Jiawang Bai Yong Yang Shu-Tao Xia AAML 100 19 0 16 May 2024
SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge Andong Wang Bo Wu Sunli Chen Zhenfang Chen Haotian Guan Wei-Ning Lee Li Erran Li Chuang Gan LRM RALM 105 19 0 15 May 2024
A Survey On Text-to-3D Contents Generation In The Wild Chenhan Jiang 115 5 0 15 May 2024
Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model Wanting Xu Yang Liu Langping He Xucheng Huang Ling Jiang VLM MLLM 64 2 0 15 May 2024
Task-adaptive Q-Face Haomiao Sun Mingjie He Shiguang Shan Hu Han Xilin Chen CVBM 102 4 0 15 May 2024
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding Zhimin Li Jianwei Zhang Qin Lin Jiangfeng Xiong Yanxin Long ... Wei Liu Dingyong Wang Yong Yang Jie Jiang Qinglin Lu ViT 141 120 0 14 May 2024
VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons Zhen Chen Xingjian Luo Jinlin Wu Danny Tat Ming Chan Zhen Lei Jinqiao Wang Sebastien Ourselin Hongbin Liu 84 4 0 14 May 2024
FreeVA: Offline MLLM as Training-Free Video Assistant Wenhao Wu VLM OffRL 87 20 0 13 May 2024