See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning

See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning

12 January 2023

Chuang Gan

ArXiv (abs)PDF HTML

Papers citing "See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning"

15 / 15 papers shown

Title
Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs Haoran Sun Yankai Jiang Wenjie Lou Yujie Zhang Wenjie Li Lilong Wang Mianxin Liu Lei Liu Xiaosong Wang LRM 15 0 0 20 Jun 2025
MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models Xiaolong Wang Zhaolu Kang Wangyuxuan Zhai Xinyue Lou Yunghwei Lai ... Yawen Wang Kaiyu Huang Yile Wang Peng Li Yang Liu 19 0 0 20 Jun 2025
SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning Yang Liu Ming Ma Xiaomin Yu Pengxiang Ding Han Zhao Mingyang Sun Siteng Huang Donglin Wang LRM 201 0 0 18 May 2025
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness Jaehyun Jeon Janghan Yoon Minsoo Kim Sumin Shim Yejin Choi Hanbin Kim Youngjae Yu AAML 161 0 0 08 May 2025
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models Guanghao Zhou Panjia Qiu Chong Chen Jiadong Wang Zheming Yang Jian Xu Minghui Qiu OffRL LRM 210 8 0 30 Apr 2025
Understanding Financial Reasoning in AI: A Multimodal Benchmark and Error Learning Approach Shuangyan Deng Haizhou Peng Jiachen Xu Chunhou Liu Ciprian Doru Giurcuaneanu Jiamou Liu AIFin 24 0 0 22 Apr 2025
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement Xinze Wang Zhiyong Yang Chao Feng Hongjin Lu Linjie Li Chung-Ching Lin Kevin Qinghong Lin Furong Huang Lijuan Wang OODD ReLM LRM VLM 214 19 0 10 Apr 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Yansen Wang Shengqiong Wu Yize Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 213 31 0 16 Mar 2025
Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines Xinwei Long Zhiyuan Ma Ermo Hua Kaiyan Zhang Biqing Qi Bowen Zhou RALM 126 1 0 23 Feb 2025
Do LLMs Understand Visual Anomalies? Uncovering LLM's Capabilities in Zero-shot Anomaly Detection Jiaqi Zhu Shaofeng Cai Fang Deng Junran Wu Junran Wu 151 18 0 15 Apr 2024
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts Yunshi Lan Xiang Li Xin Liu Yang Li Wei Qin Weining Qian LRM ReLM 157 29 0 15 Nov 2023
Prompt Engineering for Healthcare: Methodologies and Applications Jiaqi Wang Enze Shi Sigang Yu Zihao Wu Chong Ma ... Dajiang Zhu Yixuan Yuan Dinggang Shen Tianming Liu Shu Zhang LM&MA 131 115 0 28 Apr 2023
3D Concept Learning and Reasoning from Multi-View Images Yining Hong Chun-Tse Lin Yilun Du Zhenfang Chen J. Tenenbaum Chuang Gan 3DV 94 52 0 20 Mar 2023
The Contribution of Knowledge in Visiolinguistic Learning: A Survey on Tasks and Challenges Maria Lymperaiou Giorgos Stamou VLM 99 4 0 04 Mar 2023
Reasoning with Language Model Prompting: A Survey Shuofei Qiao Yixin Ou Ningyu Zhang Xiang Chen Yunzhi Yao Shumin Deng Chuanqi Tan Fei Huang Huajun Chen ReLM ELM LRM 232 327 0 19 Dec 2022