REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering

2 June 2022

Lu Yuan

Papers citing "REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering"

20 / 20 papers shown

Title
FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA S M Sarwar 80 1 0 25 Feb 2025
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering Zeqing Wang Wentao Wan Qiqing Lao Runmeng Chen Minjie Lang Keze Wang Liang Lin Liang Lin LRM 103 3 0 17 Feb 2025
Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering Qian Tao Xiaoyang Fan Yong Xu Xingquan Zhu Yufei Tang 50 0 0 22 Jan 2025
Olympus: A Universal Task Router for Computer Vision Tasks Yuanze Lin Yunsheng Li Dongdong Chen Weijian Xu Ronald Clark Philip H. S. Torr VLM ObjD 197 0 0 12 Dec 2024
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent Yangning Li Hai-Tao Zheng Xinyu Wang Yong-feng Jiang Zhen Zhang ... Hui Wang Hai-Tao Zheng Pengjun Xie Philip S. Yu Fei Huang 65 15 0 05 Nov 2024
Generative AI and Process Systems Engineering: The Next Frontier Benjamin Decardi-Nelson Abdulelah S. Alshehri Akshay Ajagekar Fengqi You AI4CE LLMAG 29 24 0 15 Feb 2024
Text-Driven Image Editing via Learnable Regions Yuanze Lin Yi-Wen Chen Yi-Hsuan Tsai Lu Jiang Ming-Hsuan Yang DiffM 31 16 0 28 Nov 2023
SAIR: Learning Semantic-aware Implicit Representation Canyu Zhang Xiaoguang Li Qing-Wu Guo Song Wang 36 3 0 13 Oct 2023
Combo of Thinking and Observing for Outside-Knowledge VQA Q. Si Yuchen Mo Zheng Lin Huishan Ji Weiping Wang 46 13 0 10 May 2023
ViperGPT: Visual Inference via Python Execution for Reasoning Dídac Surís Sachit Menon Carl Vondrick MLLM LRM ReLM 45 431 0 14 Mar 2023
The Contribution of Knowledge in Visiolinguistic Learning: A Survey on Tasks and Challenges Maria Lymperaiou Giorgos Stamou VLM 32 4 0 04 Mar 2023
Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering Zhou Yu Xuecheng Ouyang Zhenwei Shao Mei Wang Jun Yu MLLM 94 11 0 03 Mar 2023
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? Yang Chen Hexiang Hu Yi Luan Haitian Sun Soravit Changpinyo Alan Ritter Ming-Wei Chang 48 80 0 23 Feb 2023
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning Zhenfang Chen Qinhong Zhou Yikang Shen Yining Hong Hao Zhang Chuang Gan LRM VLM 33 35 0 12 Jan 2023
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi RALM VLM 40 89 0 10 Dec 2022
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training Yuanze Lin Chen Wei Huiyu Wang Alan Yuille Cihang Xie 3DGS 34 15 0 21 Nov 2022
PromptCap: Prompt-Guided Task-Aware Image Captioning Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A. Smith Jiebo Luo 45 101 0 15 Nov 2022
Gender and Racial Bias in Visual Question Answering Datasets Yusuke Hirota Yuta Nakashima Noa Garcia FaML 129 46 0 17 May 2022
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 177 402 0 10 Sep 2021
Distilling Knowledge from Reader to Retriever for Question Answering Gautier Izacard Edouard Grave RALM 185 251 0 08 Dec 2020