v1v2v3 (latest)

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

30 January 2023

Silvio Savarese

Papers citing "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models"

50 / 2,347 papers shown

Title
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization Jiawei Li Fanrui Zhang Jiaying Zhu Esther Sun Qiang Zhang Zheng-jun Zha MLLM 162 14 0 14 Oct 2024
Depth Any Video with Scalable Synthetic Data Honghui Yang Di Huang Wei Yin Chunhua Shen Haifeng Liu Xiaofei He Binbin Lin Wanli Ouyang Tong He VGen MDE 127 19 0 14 Oct 2024
3DArticCyclists: Generating Synthetic Articulated 8D Pose-Controllable Cyclist Data for Computer Vision Applications Eduardo R. Corral-Soto Yang Liu Tongtong Cao Y. Ren Liu Bingbing 149 5 0 14 Oct 2024
Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models Juseong Jin Chang Wook Jeong 74 3 0 13 Oct 2024
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models Hang Hua Yunlong Tang Ziyun Zeng Liangliang Cao Zhengyuan Yang Hangfeng He Chenliang Xu Jiebo Luo VLM CoGe 70 13 0 13 Oct 2024
MIRAGE: Multimodal Identification and Recognition of Annotations in Indian General Prescriptions Tavish Mankash V. S. Chaithanya Kota Anish De Praveen Prakash Kshitij Jadhav 72 0 0 13 Oct 2024
ControLRM: Fast and Controllable 3D Generation via Large Reconstruction Model Hongbin Xu Weitao Chen Zhipeng Zhou Feng Xiao Baigui Sun Mike Zheng Shou Wenxiong Kang 102 2 0 12 Oct 2024
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering Ting Yu Kunhao Fu Shuhui Wang Qingming Huang Jun Yu 117 2 0 12 Oct 2024
Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering Ting Yu Kunhao Fu Jian Zhang Qingming Huang Jun Yu 76 2 0 12 Oct 2024
DA-Ada: Learning Domain-Aware Adapter for Domain Adaptive Object Detection Haoyang Li Rui Zhang Hantao Yao X. Zhang Yifan Hao Xinkai Song Xiaqing Li Yongwei Zhao Ling Li Yunji Chen ObjD VLM 114 5 0 11 Oct 2024
Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision Shengcao Cao Liang-Yan Gui Yu-Xiong Wang 85 3 0 10 Oct 2024
On the Evaluation of Generative Robotic Simulations Feng Chen Botian Xu Pu Hua Peiqi Duan Yanchao Yang Yi Ma Huazhe Xu VGen 102 0 0 10 Oct 2024
A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks Hoin Jung T. Jang Xiaoqian Wang VLM 74 3 0 10 Oct 2024
How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? Seongyun Lee Geewook Kim Jiyeon Kim Hyunji Lee Hoyeon Chang Sue Hyun Park Minjoon Seo 84 1 0 10 Oct 2024
Q-VLM: Post-training Quantization for Large Vision-Language Models Changyuan Wang Ziwei Wang Xiuwei Xu Yansong Tang Jie Zhou Jiwen Lu MQ 115 7 0 10 Oct 2024
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training Gen Luo Xue Yang Wenhan Dou Zhaokai Wang Jifeng Dai Jifeng Dai Yu Qiao Xizhou Zhu VLM MLLM 163 34 0 10 Oct 2024
Insight Over Sight: Exploring the Vision-Knowledge Conflicts in Multimodal LLMs Xiaoyuan Liu Wenxuan Wang Youliang Yuan Jen-tse Huang Qiuzhi Liu Pinjia He Zhaopeng Tu 434 4 0 10 Oct 2024
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents Siyu Zhou Tianyi Zhou Yijun Yang Guodong Long Deheng Ye Jing Jiang Chengqi Zhang LLMAG LM&Ro 116 4 0 09 Oct 2024
Exploring Efficient Foundational Multi-modal Models for Video Summarization Karan Samel Apoorva Beedu Nitish Sontakke Irfan Essa 37 1 0 09 Oct 2024
Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training Sara Sarto Nicholas Moratelli Marcella Cornia Lorenzo Baraldi Rita Cucchiara 80 4 0 09 Oct 2024
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate Qidong Huang Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Jiaqi Wang Dahua Lin Weiming Zhang Nenghai Yu 83 9 0 09 Oct 2024
InstructG2I: Synthesizing Images from Multimodal Attributed Graphs Bowen Jin Ziqi Pang Bingjun Guo Yu-Xiong Wang Jiaxuan You Jiawei Han DiffM 94 2 0 09 Oct 2024
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models Rui Zhao Hangjie Yuan Yujie Wei Shiwei Zhang Yuchao Gu ... Xiang Wang Zhangjie Wu Junhao Zhang Yingya Zhang Mike Zheng Shou DiffM VLM 119 4 0 09 Oct 2024
Personalized Visual Instruction Tuning Renjie Pi Jianshu Zhang Tianyang Han Jipeng Zhang Boyao Wang Tong Zhang MLLM 81 9 0 09 Oct 2024
From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models Yuying Shang Xinyi Zeng Yutao Zhu Xiao Yang Zhengwei Fang Jingyuan Zhang Jiawei Chen Zinan Liu Yu Tian VLM MLLM 377 1 0 09 Oct 2024
HERM: Benchmarking and Enhancing Multimodal LLMs for Human-Centric Understanding Keliang Li Zaifei Yang Jiahe Zhao Hongze Shen Ruibing Hou Hong Chang Shiguang Shan Xilin Chen VLM 78 1 0 09 Oct 2024
Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization Changli Tang Yixuan Li Yudong Yang Jimin Zhuang Guangzhi Sun Wei Li Zejun Ma Chao Zhang 91 5 0 09 Oct 2024
Deep Correlated Prompting for Visual Recognition with Missing Modalities Lianyu Hu Tongkai Shi Wei Feng Fanhua Shang Liang Wan VLM 134 2 0 09 Oct 2024
ING-VP: MLLMs cannot Play Easy Vision-based Games Yet Haoran Zhang Hangyu Guo Shuyue Guo Meng Cao Wenhao Huang Jiaheng Liu Ge Zhang VLM MLLM LRM 90 3 0 09 Oct 2024
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities Xin Zhang Xiang Lyu Zhihao Du Qian Chen Dong Zhang ... Yuxuan Wang Bin Zhang Heng Lu Yaqian Zhou Xipeng Qiu AuLLM 109 9 0 09 Oct 2024
Towards Interpreting Visual Information Processing in Vision-Language Models Clement Neo Luke Ong Philip Torr Mor Geva David M. Krueger Fazl Barez 137 15 0 09 Oct 2024
LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning Zhe Li Weihao Yuan Yisheng He Lingteng Qiu Shenhao Zhu Xiaodong Gu Weichao Shen Yuan Dong Zilong Dong Laurence T. Yang 88 10 0 09 Oct 2024
OrionNav: Online Planning for Robot Autonomy with Context-Aware LLM and Open-Vocabulary Semantic Scene Graphs Venkata Naren Devarakonda Raktim Gautam Goswami Ali Umut Kaypak Naman Patel Rooholla Khorrambakht Prashanth Krishnamurthy Farshad Khorrami LM&Ro 103 7 0 08 Oct 2024
An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment Hugo Malard Michel Olvera Stéphane Lathuilière S. Essid VLM 66 0 0 08 Oct 2024
Aria: An Open Multimodal Native Mixture-of-Experts Model Dongxu Li Yudong Liu Haoning Wu Yue Wang Zhiqi Shen ... Lihuan Zhang Hanshu Yan Guoyin Wang Bei Chen Junnan Li MoE 150 65 0 08 Oct 2024
Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts Zhiwei Lin Yongtao Wang Zhi Tang ObjD VLM 81 7 0 08 Oct 2024
EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment Yifei Xing Xiangyuan Lan Ruiping Wang D. Jiang Wenjun Huang Qingfang Zheng Yaowei Wang Mamba 121 0 0 08 Oct 2024
ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models Fanhu Zeng Fei Zhu Haiyang Guo Xu-Yao Zhang Cheng-Lin Liu VLM CLL 80 12 0 08 Oct 2024
TRACE: Temporal Grounding Video LLM via Causal Event Modeling Yongxin Guo Jingyu Liu Mingda Li Xiaoying Tang Qingbin Liu Xiaoying Tang 119 19 0 08 Oct 2024
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models Muhammad Jehanzeb Mirza Mengjie Zhao Zhuoyuan Mao Sivan Doveh Wei Lin ... Yuki Mitsufuji Horst Possegger Rogerio Feris Leonid Karlinsky James Glass VLM 220 1 0 08 Oct 2024
GS-VTON: Controllable 3D Virtual Try-on with Gaussian Splatting Yukang Cao Masoud Hadi Liang Pan Ziwei Liu 3DGS DiffM 102 5 0 07 Oct 2024
Recent Advances of Multimodal Continual Learning: A Comprehensive Survey Dianzhi Yu Xinni Zhang Yankai Chen Aiwei Liu Yifei Zhang Philip S. Yu Irwin King VLM CLL 101 13 0 07 Oct 2024
Revealing Directions for Text-guided 3D Face Editing Zhuo Chen Yichao Yan Sehngqi Liu Yuhao Cheng Weiming Zhao Lincheng Li Mengxiao Bi Xiaokang Yang DiffM 69 0 0 07 Oct 2024
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction Leheng Li Weichao Qiu Xu Yan Jing He Kaiqiang Zhou Yingjie Cai Qing Lian Bingbing Liu Ying-Cong Chen SyDa DiffM 85 1 0 07 Oct 2024
MINER: Mining the Underlying Pattern of Modality-Specific Neurons in Multimodal Large Language Models Kaichen Huang Jiahao Huo Yibo Yan Kun Wang Yutao Yue Xuming Hu 80 2 0 07 Oct 2024
LLaVA Needs More Knowledge: Retrieval Augmented Natural Language Generation with Knowledge Graph for Explaining Thoracic Pathologies Ameer Hamza Abdullah Abdullah Yong Hyun Ahn Sungyoung Lee Seong Tae Kim 83 4 0 07 Oct 2024
ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction Hyungjin Chung Dohun Lee Jong Chul Ye VGen DiffM 68 2 0 07 Oct 2024
FedBiP: Heterogeneous One-Shot Federated Learning with Personalized Latent Diffusion Models Haokun Chen Hang Li Yao Zhang Gengyuan Zhang Jinhe Bi Philip Torr Philip Torr Denis Krompass Denis Krompass Volker Tresp 127 3 0 07 Oct 2024
Organizing Unstructured Image Collections using Natural Language Mingxuan Liu Zhun Zhong Jun Li Gianni Franchi Subhankar Roy Elisa Ricci VLM 143 5 0 07 Oct 2024
Generating CAD Code with Vision-Language Models for 3D Designs Kamel Alrashedy Pradyumna Tambwekar Z. Zaidi Megan Langwasser Wei Xu Matthew Gombolay 101 13 0 07 Oct 2024