v1v2 (latest)

Are metrics measuring what they should? An evaluation of image captioning task metrics

4 July 2022

Othón González-Chávez

Guillermo Ruiz

Daniela Moctezuma

Tania A. Ramirez-delreal

ArXiv (abs)PDF HTML

Papers citing "Are metrics measuring what they should? An evaluation of image captioning task metrics"

50 / 59 papers shown

Title
Scaling Up Vision-Language Pre-training for Image Captioning Xiaowei Hu Zhe Gan Jianfeng Wang Zhengyuan Yang Zicheng Liu Yumao Lu Lijuan Wang MLLM VLM 137 250 0 24 Nov 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 134 269 0 14 Jul 2021
CLIPScore: A Reference-free Evaluation Metric for Image Captioning Jack Hessel Ari Holtzman Maxwell Forbes Ronan Le Bras Yejin Choi CLIP 150 1,584 0 18 Apr 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 967 29,810 0 26 Feb 2021
Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search Federico A. Galatolo M. G. Cimino G. Vaglini VLM 143 87 0 02 Feb 2021
CPTR: Full Transformer Network for Image Captioning Wei Liu Sihan Chen Longteng Guo Xinxin Zhu Jing Liu ViT 55 142 0 26 Jan 2021
VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao ObjD VLM 325 157 0 02 Jan 2021
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 670 41,430 0 22 Oct 2020
A Survey of Evaluation Metrics Used for NLG Systems Ananya B. Sai Akash Kumar Mohankumar Mitesh M. Khapra ELM 87 236 0 27 Aug 2020
Recurrent Relational Memory Network for Unsupervised Image Captioning Dan Guo Yang Wang Peipei Song Meng Wang GAN 72 40 0 24 Jun 2020
Survey on Deep Multi-modal Data Analytics: Collaboration, Rivalry and Fusion Yang Wang 107 200 0 15 Jun 2020
VirTex: Learning Visual Representations from Textual Annotations Karan Desai Justin Johnson SSL VLM 160 436 0 11 Jun 2020
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu ... Houdong Hu Li Dong Furu Wei Yejin Choi Jianfeng Gao VLM 135 1,944 0 13 Apr 2020
X-Linear Attention Networks for Image Captioning Yingwei Pan Ting Yao Yehao Li Tao Mei 116 513 0 31 Mar 2020
Visual Commonsense R-CNN Tan Wang Jianqiang Huang Hanwang Zhang Qianru Sun SSL ObjD CML 60 250 0 27 Feb 2020
Meshed-Memory Transformer for Image Captioning Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara 78 884 0 17 Dec 2019
TIGEr: Text-to-Image Grounding for Image Caption Evaluation Ming Jiang Qiuyuan Huang Lei Zhang Xin Eric Wang Pengchuan Zhang Zhe Gan Jana Diesner Jianfeng Gao 92 68 0 04 Sep 2019
Reflective Decoding Network for Image Captioning Lei Ke Wenjie Pei Ruiyu Li Xiaoyong Shen Yu-Wing Tai ObjD 49 93 0 30 Aug 2019
Release Strategies and the Social Impacts of Language Models Irene Solaiman Miles Brundage Jack Clark Amanda Askell Ariel Herbert-Voss ... Miles McCain Alex Newhouse Jason Blazakis Kris McGuffie Jasmine Wang 87 632 0 24 Aug 2019
Attention on Attention for Image Captioning Lun Huang Wenmin Wang Jie Chen Xiao-Yong Wei 72 832 0 19 Aug 2019
XLNet: Generalized Autoregressive Pretraining for Language Understanding Zhilin Yang Zihang Dai Yiming Yang J. Carbonell Ruslan Salakhutdinov Quoc V. Le AI4CE 236 8,447 0 19 Jun 2019
Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval Yale Song M. Soleymani 60 246 0 11 Jun 2019
How to Fine-Tune BERT for Text Classification? Chi Sun Xipeng Qiu Yige Xu Xuanjing Huang 87 1,526 0 14 May 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 352 5,860 0 21 Apr 2019
Pre-gen metrics: Predicting caption quality metrics without generating captions Marc Tanti Albert Gatt K. Camilleri 49 2 0 12 Oct 2018
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.8K 95,175 0 11 Oct 2018
Human vs Automatic Metrics: on the Importance of Correlation Design Anastasia Shimorina HAI 52 14 0 29 May 2018
A Call for Clarity in Reporting BLEU Scores Matt Post 179 2,996 0 23 Apr 2018
Stacked Cross Attention for Image-Text Matching Kuang-Huei Lee Xi Chen G. Hua Houdong Hu Xiaodong He 101 1,156 0 21 Mar 2018
Convolutional Image Captioning J. Aneja Aditya Deshpande Alex Schwing VLM 135 361 0 24 Nov 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 123 4,221 0 25 Jul 2017
Why We Need New Evaluation Metrics for NLG Jekaterina Novikova Ondrej Dusek Amanda Cercas Curry Verena Rieser 98 462 0 21 Jul 2017
Actor-Critic Sequence Training for Image Captioning Li Zhang Flood Sung Feng Liu Tao Xiang S. Gong Yongxin Yang Timothy M. Hospedales 61 111 0 29 Jun 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 774 132,363 0 12 Jun 2017
Deep Reinforcement Learning-based Image Captioning with Embedding Reward Zhou Ren Xiaoyu Wang Ning Zhang Xutao Lv Li Li 60 324 0 12 Apr 2017
Re-evaluating Automatic Metrics for Image Captioning Mert Kilickaya Aykut Erdem Nazli Ikizler-Cinbis Erkut Erdem 62 181 0 22 Dec 2016
Areas of Attention for Image Captioning M. Pedersoli Thomas Lucas Cordelia Schmid Jakob Verbeek 79 206 0 03 Dec 2016
Self-critical Sequence Training for Image Captioning Steven J. Rennie E. Marcheret Youssef Mroueh Jerret Ross Vaibhava Goel 109 1,890 0 02 Dec 2016
SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning Long Chen Hanwang Zhang Jun Xiao Liqiang Nie Jian Shao Wei Liu Tat-Seng Chua 78 1,663 0 17 Nov 2016
Seeing with Humans: Gaze-Assisted Neural Image Captioning Yusuke Sugano Andreas Bulling 68 68 0 18 Aug 2016
SPICE: Semantic Propositional Image Caption Evaluation Peter Anderson Basura Fernando Mark Johnson Stephen Gould EGVM 108 1,919 0 29 Jul 2016
Attention Correctness in Neural Image Captioning Chenxi Liu Junhua Mao Fei Sha Alan Yuille 3DV 82 220 0 31 May 2016
Rich Image Captioning in the Wild Kenneth Tran Xiaodong He Lei Zhang Jian Sun Cornelia Carapcea Chris Thrasher Chris Buehler Chris Sienkiewicz VLM 55 124 0 30 Mar 2016
How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation Chia-Wei Liu Ryan J. Lowe Iulian Serban Michael Noseworthy Laurent Charlin Joelle Pineau 104 1,299 0 25 Mar 2016
Image Captioning with Semantic Attention Quanzeng You Hailin Jin Zhaowen Wang Chen Fang Jiebo Luo VLM 174 1,662 0 12 Mar 2016
Automatic Description Generation from Images: A Survey of Models, Datasets, and Evaluation Measures Raffaella Bernardi Ruken Cakici Desmond Elliott Aykut Erdem Erkut Erdem Nazli Ikizler-Cinbis Frank Keller A. Muscat Barbara Plank EGVM VLM 75 364 0 15 Jan 2016
Sequence Level Training with Recurrent Neural Networks MarcÁurelio Ranzato S. Chopra Michael Auli Wojciech Zaremba 104 1,620 0 20 Nov 2015
Generation and Comprehension of Unambiguous Object Descriptions Junhua Mao Jonathan Huang Alexander Toshev Oana-Maria Camburu Alan Yuille Kevin Patrick Murphy ObjD 131 1,357 0 07 Nov 2015
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Ke Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhutdinov R. Zemel Yoshua Bengio DiffM 348 10,079 0 10 Feb 2015
Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN) Junhua Mao Wenyuan Xu Yi Yang Jiang Wang Zhiheng Huang Alan Yuille VLM 178 1,240 0 20 Dec 2014