Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models

6 August 2023

Papers citing "Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models"

6 / 6 papers shown

Title
Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image Recognition Sergio Romero-Tapiador Ruben Tolosana Blanca Lacruz-Pleguezuelos L. Marcos-Zambrano Guadalupe X.Bazán Isabel Espinosa-Salinas Julian Fierrez Javier-Ortega Garcia Enrique Carrillo-de Santa Pau Aythami Morales CoGe 24 0 0 09 Apr 2025
Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts E. Z. Zeng Yuhao Chen A. Wong DiffM 36 0 0 25 Oct 2024
VL-Taboo: An Analysis of Attribute-based Zero-shot Capabilities of Vision-Language Models Felix Vogel Nina Shvetsova Leonid Karlinsky Hilde Kuehne VLM 57 7 0 12 Sep 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 390 4,125 0 28 Jan 2022
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 325 2,263 0 02 Sep 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,774 0 24 Feb 2021