Papers citing "An Introduction to Vision-Language Modeling"

9 / 9 papers shown

Title
Domain Adaptation of VLM for Soccer Video Understanding Tiancheng Jiang Henry Wang Md Sirajus Salekin Parmida Atighehchian Shinan Zhang VLM 51 0 0 20 May 2025
VLM-KG: Multimodal Radiology Knowledge Graph Generation Abdullah Abdullah Seong Tae Kim 45 0 0 13 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Wei Wei Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 179 0 0 05 May 2025
Reimagining Urban Science: Scaling Causal Inference with Large Language Models Yutong Xia Ao Qu Yunhan Zheng Yihong Tang Dingyi Zhuang ... Cathy Wu Roger Zimmermann Lijun Sun Roger Zimmermann Jinhua Zhao AI4CE 287 1 0 15 Apr 2025
A kinetic-based regularization method for data science applications Abhisek Ganguly Alessandro Gabbana Vybhav Rao Sauro Succi Santosh Ansumali 86 1 0 06 Mar 2025
Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad? Antonia Wüst Tim Nelson Tobiasch Lukas Helff Inga Ibs Wolfgang Stammer Devendra Singh Dhami Constantin Rothkopf Kristian Kersting CoGe ReLM VLM LRM 115 1 0 25 Oct 2024
Enabling Novel Mission Operations and Interactions with ROSA: The Robot Operating System Agent Rob Royce Marcel Kaufmann Jonathan Becktor Sangwoo Moon Kalind Carpenter Kai Pak Amanda Towler Rohan Thakker Shehryar Khattak LM&Ro 54 2 0 09 Oct 2024
An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation Peiming Guo Sinuo Liu Yanzhao Zhang Dingkun Long Pengjun Xie Meishan Zhang Hao Fei DiffM 97 1 0 16 Aug 2024
Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report Franz Louis Cesista VGen 69 6 0 17 Jun 2024