v1v2v3 (latest)

Gender Biases in Automatic Evaluation Metrics for Image Captioning

24 May 2023

Papers citing "Gender Biases in Automatic Evaluation Metrics for Image Captioning"

23 / 23 papers shown

Title
Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation Ziqiao Ma Jing Ding Xuejun Zhang Dezhi Luo Jiahe Ding Sihan Xu Yuchen Huang Run Peng Joyce Chai 216 0 0 22 Apr 2025
Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks Mohammad Saleha Azadeh Tabatabaeib 126 0 0 14 Apr 2025
BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation Tianxiang Sun Junliang He Xipeng Qiu Xuanjing Huang 85 47 0 14 Oct 2022
Counterfactually Measuring and Eliminating Social Bias in Vision-Language Pre-training Models Yi Zhang Junyan Wang Jitao Sang 78 28 0 03 Jul 2022
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang ... Ce Liu Yann LeCun Nanyun Peng Jianfeng Gao Lijuan Wang VLM ObjD 103 128 0 15 Jun 2022
Learning Compact Metrics for MT Amy Pu Hyung Won Chung Ankur P. Parikh Sebastian Gehrmann Thibault Sellam 77 101 0 12 Oct 2021
Harms of Gender Exclusivity and Challenges in Non-Binary Representation in Language Technologies Sunipa Dev Masoud Monajatipoor Anaelia Ovalle Arjun Subramonian J. M. Phillips Kai-Wei Chang 121 170 0 27 Aug 2021
Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications Sandhini Agarwal Gretchen Krueger Jack Clark Alec Radford Jong Wook Kim Miles Brundage 65 143 0 05 Aug 2021
BARTScore: Evaluating Generated Text as Text Generation Weizhe Yuan Graham Neubig Pengfei Liu 131 849 0 22 Jun 2021
RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of Conversational Language Models Soumya Barikeri Anne Lauscher Ivan Vulić Goran Glavaš 96 184 0 07 Jun 2021
CLIPScore: A Reference-free Evaluation Metric for Image Captioning Jack Hessel Ari Holtzman Maxwell Forbes Ronan Le Bras Yejin Choi CLIP 169 1,588 0 18 Apr 2021
Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing Brian Thompson Matt Post LRM 58 190 0 30 Apr 2020
BLEURT: Learning Robust Metrics for Text Generation Thibault Sellam Dipanjan Das Ankur P. Parikh 103 1,506 0 09 Apr 2020
MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance Wei Zhao Maxime Peyrard Fei Liu Yang Gao Christian M. Meyer Steffen Eger 192 602 0 05 Sep 2019
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 290 649 0 03 Sep 2019
Measuring Bias in Contextualized Word Representations Keita Kurita Nidhi Vyas Ayush Pareek A. Black Yulia Tsvetkov 116 453 0 18 Jun 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 360 5,872 0 21 Apr 2019
A Deep Reinforced Model for Abstractive Summarization Romain Paulus Caiming Xiong R. Socher AI4TS 208 1,560 0 11 May 2017
Self-critical Sequence Training for Image Captioning Steven J. Rennie E. Marcheret Youssef Mroueh Jerret Ross Vaibhava Goel 109 1,892 0 02 Dec 2016
SPICE: Semantic Propositional Image Caption Evaluation Peter Anderson Basura Fernando Mark Johnson Stephen Gould EGVM 108 1,919 0 29 Jul 2016
Minimum Risk Training for Neural Machine Translation Shiqi Shen Yong Cheng Zhongjun He W. He Hua Wu Maosong Sun Yang Liu 137 469 0 08 Dec 2015
Deep Visual-Semantic Alignments for Generating Image Descriptions A. Karpathy Li Fei-Fei 152 5,595 0 07 Dec 2014
CIDEr: Consensus-based Image Description Evaluation Ramakrishna Vedantam C. L. Zitnick Devi Parikh 306 4,511 0 20 Nov 2014