VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

v1v2 (latest)

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

13 March 2025

ArXiv (abs)PDF HTML

Papers citing "VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search"

6 / 6 papers shown

Title
Is Extending Modality The Right Path Towards Omni-Modality? Tinghui Zhu Kai Zhang Muhao Chen Yu Su VLM 48 0 0 02 Jun 2025
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning Zebin You Shen Nie Xiaolu Zhang Jun Hu Jun Zhou Zhiwu Lu J. Wen Chongxuan Li MLLM VLM 112 2 0 22 May 2025
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains Qianchu Liu Sheng Zhang Guanghui Qin Timothy Ossowski Yu Gu ... Sam Preston Mu-Hsin Wei Paul Vozila Tristan Naumann Hoifung Poon OOD LRM VLM 122 8 0 06 May 2025
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning Haozhe Wang Chao Qu Zuming Huang Wei Chu Fangzhen Lin Wenhu Chen OffRL ReLM SyDa LRM VLM 155 40 0 10 Apr 2025
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs Omkar Thawakar Dinura Dissanayake Ketan More Ritesh Thawkar Ahmed Heakl ... Hisham Cholakkal Ivan Laptev Mubarak Shah Fahad Shahbaz Khan Salman Khan VLM LRM 127 58 0 10 Jan 2025
Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report Franz Louis Cesista VGen 133 6 0 17 Jun 2024