Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

30 April 2024

Jacob Samuel Huffman

Papers citing "Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation"

13 / 13 papers shown

Title
Perception in Reflection Yana Wei Liang Zhao Kangheng Lin En Yu Yuang Peng ... Jianjian Sun Haoran Wei Zheng Ge Xiangyu Zhang Vishal M. Patel 31 0 0 09 Apr 2025
Scaling Vision Pre-Training to 4K Resolution Baifeng Shi Boyi Li Han Cai Yaojie Lu Sifei Liu ... Jan Kautz Song Han Trevor Darrell Pavlo Molchanov Hongxu Yin CLIP 139 0 0 25 Mar 2025
ExCap3D: Expressive 3D Scene Understanding via Object Captioning with Varying Detail Chandan Yeshwanth Dávid Rozenberszki Angela Dai 77 0 0 21 Mar 2025
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks Miran Heo Min-Hung Chen De-An Huang Sifei Liu Subhashree Radhakrishnan Seon Joo Kim Yu-Chun Wang Ryo Hachiuma ObjD VLM 159 2 0 14 Jan 2025
Organizing Unstructured Image Collections using Natural Language Mingxuan Liu Zhun Zhong Jun Li Gianni Franchi Subhankar Roy Elisa Ricci VLM 39 3 0 07 Oct 2024
Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis Uri Berger Gabriel Stanovsky Omri Abend Lea Frermann 32 0 0 09 Aug 2024
Learning Visual Grounding from Generative Vision and Language Model Shijie Wang Dahun Kim A. Taalimi Chen Sun Weicheng Kuo ObjD 36 5 0 18 Jul 2024
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception Xiaotong Li Fan Zhang Haiwen Diao Yueze Wang Xinlong Wang Ling-yu Duan VLM 31 26 0 11 Jul 2024
From Descriptive Richness to Bias: Unveiling the Dark Side of Generative Image Caption Enrichment Yusuke Hirota Ryo Hachiuma Chao-Han Huck Yang Yuta Nakashima VLM 38 3 0 20 Jun 2024
Hallucination of Multimodal Large Language Models: A Survey Zechen Bai Pichao Wang Tianjun Xiao Tong He Zongbo Han Zheng Zhang Mike Zheng Shou VLM LRM 95 139 0 29 Apr 2024
IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers Chenglin Yang Siyuan Qiao Yuan Cao Yu Zhang Tao Zhu Alan L. Yuille Jiahui Yu VLM 18 3 0 27 Nov 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 270 4,244 0 30 Jan 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 392 4,137 0 28 Jan 2022