Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

28 October 2024

Papers citing "Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines"

2 / 2 papers shown

Title
Concept-as-Tree: Synthetic Data is All You Need for VLM Personalization Ruichuan An Kai Zeng Ming Lu Sihan Yang Renrui Zhang Huitong Ji Qizhe Zhang Yihao Luo Hao Liang Wentao Zhang 73 0 0 17 Mar 2025
MCiteBench: A Multimodal Benchmark for Generating Text with Citations Caiyu Hu Yikai Zhang Tinghui Zhu Yiwei Ye Yanghua Xiao 89 0 0 04 Mar 2025