v1v2v3 (latest)

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

30 January 2023

Silvio Savarese

Papers citing "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models"

50 / 2,338 papers shown

Title
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation Daniil Selikhanovych David Li Aleksei Leonov Nikita Gushchin Sergei Kushneriuk Alexander N. Filippov Evgeny Burnaev Iaroslav Koshelev Alexander Korotin DiffM 157 0 0 17 Mar 2025
DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models Haoyang Li Liang Wang Chao Wang Jing Jiang Yan Peng Guodong Long VLM 139 1 0 17 Mar 2025
Evolution-based Region Adversarial Prompt Learning for Robustness Enhancement in Vision-Language Models Xiaojun Jia Sensen Gao Simeng Qin Ke Ma Xianrui Li Yihao Huang Wei Dong Yang Liu Xiaochun Cao AAML VLM 120 2 0 17 Mar 2025
Aligning Vision to Language: Text-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning Junming Liu Siyuan Meng Yanting Gao Song Mao Pinlong Cai Guohang Yan Yirong Chen Zilin Bian Botian Shi Ding Wang 87 3 0 17 Mar 2025
InsightDrive: Insight Scene Representation for End-to-End Autonomous Driving Ruiqi Song Xianda Guo Hangbin Wu Qinggong Wei Long Chen 189 2 0 17 Mar 2025
Grounded Chain-of-Thought for Multimodal Large Language Models Qiong Wu Xiangcong Yang Yiyi Zhou Chenxin Fang Baiyang Song Xiaoshuai Sun Rongrong Ji LRM 192 3 0 17 Mar 2025
Quantum EigenGame for excited state calculation David Quiroga Jason Han Anastasios Kyrillidis 116 0 0 17 Mar 2025
ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models Hao Yin Guangzong Si Zilei Wang 418 1 0 17 Mar 2025
Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation Henghui Du Guangyao Li Chang Zhou Chunjie Zhang Alan Zhao D. Hu 106 2 0 17 Mar 2025
PASTA: Part-Aware Sketch-to-3D Shape Generation with Text-Aligned Prior Seanie Lee Hwanhee Jung Byoungsoo Koh Qixing Huang Sangho Yoon Sangpil Kim 73 0 0 17 Mar 2025
NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models Sung-Yeon Park Can Cui Yunsheng Ma Ahmadreza Moradipari Rohit Gupta Kyungtae Han Ziran Wang 74 2 0 17 Mar 2025
Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference Hao Yin Guangzong Si Zilei Wang 132 1 0 17 Mar 2025
MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling Yingyue Li Bencheng Liao Wenyu Liu Xinggang Wang Mamba 126 0 0 17 Mar 2025
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills Haoqi Yuan Yu Bai Yuhui Fu Bohan Zhou Yicheng Feng Xinrun Xu Yi Zhan Börje F. Karlsson Zongqing Lu LM&Ro 203 1 0 16 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Yansen Wang Shengqiong Wu Yize Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 213 31 0 16 Mar 2025
SEAL: Semantic Aware Image Watermarking Kasra Arabi R. Teal Witter Chinmay Hegde Niv Cohen WIGM AAML 168 0 0 15 Mar 2025
Context-aware Multimodal AI Reveals Hidden Pathways in Five Centuries of Art Evolution Jin Kim B. Lee Taekho You Jinhyuk Yun 62 1 0 15 Mar 2025
Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars Eric M. Chen Di Liu Sizhuo Ma Michael Vasilkovsky Bing Zhou ... Wei Wang Jiahao Luo Dimitris N. Metaxas Vincent Sitzmann Jian Wang 3DGS 167 0 0 15 Mar 2025
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks Yi Zhang Qiang Zhang Xiaozhu Ju Ziqiang Liu Jilei Mao ... Jiaxu Wang Yiqun Duan Jiahang Cao Renjing Xu Jian Tang LM&Ro LRM 109 0 0 14 Mar 2025
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion A. Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos ... Yusik Kim A. Said Gurbuz Michele Dolfi Miquel Farré Peter W. J. Staar 102 6 0 14 Mar 2025
DeskVision: Large Scale Desktop Region Captioning for Advanced GUI Agents Yibin Xu Liang Yang Hao Chen Hua Wang Zhi Chen Yaohua Tang 3DV 115 0 0 14 Mar 2025
Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection Chuhan Zhang Chaoyang Zhu Pingcheng Dong Long Chen Dong Zhang ObjD VLM 491 0 0 14 Mar 2025
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity Jing Bi Junjia Guo Susan Liang Guangyu Sun Luchuan Song ... Jinxi He Jiarui Wu Ali Vosoughi Chong Chen Chenliang Xu LRM 122 8 0 14 Mar 2025
DynRsl-VLM: Enhancing Autonomous Driving Perception with Dynamic Resolution Vision-Language Models Xirui Zhou Lianlei Shan Xiaolin Gui 91 0 0 14 Mar 2025
FastVID: Dynamic Density Pruning for Fast Video Large Language Models Leqi Shen Guoqiang Gong Tao He Yifeng Zhang Pengzhang Liu Sicheng Zhao Guiguang Ding VLM 111 2 0 14 Mar 2025
Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning Yiwei Chen Yuguang Yao Yihua Zhang Bingquan Shen Gaowen Liu Sijia Liu AAML MU 117 2 0 14 Mar 2025
OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning Yang Liu Saihui Hou Saijie Hou Jiabao Du Shibei Meng Yongzhen Huang VLM 124 0 0 14 Mar 2025
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation Seyed Mohammad Hadi Hosseini Amir Mohammad Izadi Ali Abdollahi Armin Saghafian M. Baghshah EGVM CoGe 88 0 0 14 Mar 2025
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers Weiming Ren Wentao Ma Huan Yang Cong Wei Ge Zhang Wenhu Chen Mamba 83 5 0 14 Mar 2025
PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models Zilu Guo Hongbin Lin Zhihao Yuan C. Zheng Pengshuo Qiu Dongzhi Jiang Renrui Zhang Chun-Mei Feng Zhen Li MLLM 3DV 194 2 0 13 Mar 2025
Piece it Together: Part-Based Concepting with IP-Priors Elad Richardson Kfir Goldberg Yuval Alaluf Daniel Cohen-Or DiffM 102 0 0 13 Mar 2025
Learning to Inference Adaptively for Multimodal Large Language Models Zhuoyan Xu Khoi Duc Nguyen Preeti Mukherjee Saurabh Bagchi Somali Chaterji Yingyu Liang Yin Li LRM 129 2 0 13 Mar 2025
MACS: Multi-source Audio-to-image Generation with Contextual Significance and Semantic Alignment Hao Zhou Xiaobao Guo Yuzhe Zhu A. Kong DiffM 142 1 0 13 Mar 2025
CoSTA $\ast$ : Cost-Sensitive Toolpath Agent for Multi-turn Image Editing Advait Gupta NandaKiran Velaga Dang Nguyen Dinesh Manocha DiffM 128 0 0 13 Mar 2025
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning Weiyun Wang Zhangwei Gao Lawrence Yunliang Chen Zhe Chen Jinguo Zhu ... Lewei Lu Haodong Duan Yu Qiao Jifeng Dai Wenhai Wang LRM 150 39 0 13 Mar 2025
A Hierarchical Semantic Distillation Framework for Open-Vocabulary Object Detection Shenghao Fu Junkai Yan Q. Yang Xihan Wei Xiaohua Xie Wei-Shi Zheng ObjD VLM 87 0 0 13 Mar 2025
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search Yiming Jia Junlong Li Xiang Yue Bo Li Ping Nie Dayou Du Wenhu Chen LRM 166 4 0 13 Mar 2025
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model Jiaming Liu Hao Chen Pengju An Zhuoyang Liu Renrui Zhang ... Chengkai Hou Mengdi Zhao KC alex Zhou Pheng-Ann Heng Shanghang Zhang 187 20 0 13 Mar 2025
Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding Shunqi Mao Chaoyi Zhang Weidong Cai MLLM 456 1 0 13 Mar 2025
Hybrid Agents for Image Restoration Bingchen Li Xiaochen Li Yiting Lu Zhibo Chen 146 2 0 13 Mar 2025
Unveiling the Invisible: Reasoning Complex Occlusions Amodally with AURA Zhixuan Li Hyunse Yoon Sanghoon Lee Weisi Lin 87 1 0 13 Mar 2025
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 Zhaoyi Li Xiaohan Zhao Dong-Dong Wu Jiacheng Cui Zhiqiang Shen AAML VLM 144 3 0 13 Mar 2025
The Power of One: A Single Example is All it Takes for Segmentation in VLMs Mir Rayat Imtiaz Hossain Mennatullah Siam Leonid Sigal James J. Little MLLM VLM Presented at ResearchTrend Connect \| VLM on 21 May 2025 230 0 0 13 Mar 2025
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance Yufan Deng Xun Guo Yanjie Wang Jacob Zhiyuan Fang Angtian Wang Shenghai Yuan Yiding Yang Bo Liu Haibin Huang Chongyang Ma DiffM VGen 154 3 0 13 Mar 2025
PRISM: Preference Refinement via Implicit Scene Modeling for 3D Vision-Language Preference-Based Reinforcement Learning Yirong Sun Yanjun Chen OffRL 83 0 0 13 Mar 2025
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? Yuanxin Liu Rui Zhu Shuhuai Ren Jiacong Wang Haoyuan Guo Xu Sun Lu Jiang 379 1 0 13 Mar 2025
Towards Fast, Memory-based and Data-Efficient Vision-Language Policy Haoxuan Li Sixu Yan Yongqian Li Xinggang Wang LM&Ro 126 1 0 13 Mar 2025
Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding Haoyu Zhang Qiaohui Chu Meng Liu Yunxiao Wang Bin Wen Fan Yang Yan Li Di Zhang Yaowei Wang Liqiang Nie EgoV 112 5 0 12 Mar 2025
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary Kevin Qinghong Lin Mike Zheng Shou VGen 477 1 0 12 Mar 2025
Long-horizon Visual Instruction Generation with Logic and Attribute Self-reflection Yucheng Suo Fan Ma Kaixin Shen Linchao Zhu Yi Yang VLM 88 0 0 12 Mar 2025