Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation

v1v2v3v4 (latest)

Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation

6 August 2023

Jie Zhou

ArXiv (abs)PDF HTML Github (5★)

Papers citing "Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation"

13 / 13 papers shown

Title
Is ChatGPT a Good NLG Evaluator? A Preliminary Study Jiaan Wang Yunlong Liang Fandong Meng Zengkui Sun Haoxiang Shi Zhixu Li Jinan Xu Jianfeng Qu Jie Zhou LM&MA ELM ALM AI4MH 131 470 0 07 Mar 2023
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model BigScience Workshop : Teven Le Scao Angela Fan Christopher Akiki ... Zhongli Xie Zifan Ye M. Bras Younes Belkada Thomas Wolf VLM 397 2,392 0 09 Nov 2022
Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task Boyi Deng Keqin Bao Dayiheng Liu Baosong Yang Derek F. Wong Lidia S. Chao Wenqiang Lei Jun Xie 61 9 0 18 Oct 2022
No Language Left Behind: Scaling Human-Centered Machine Translation Nllb team Marta R. Costa-jussá James Cross Onur cCelebi Maha Elbayad ... Alexandre Mourachko C. Ropers Safiyyah Saleem Holger Schwenk Jeff Wang MoE 228 1,266 0 11 Jul 2022
WeChat Neural Machine Translation Systems for WMT21 Xianfeng Zeng Yanjun Liu Ernan Li Qiu Ran Fandong Meng Peng Li Jinan Xu Jie Zhou 65 20 0 05 Aug 2021
To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation Tom Kocmi C. Federmann Roman Grundkiewicz Marcin Junczys-Dowmunt Hitokazu Matsushita Arul Menezes 84 210 0 22 Jul 2021
WeChat Neural Machine Translation Systems for WMT20 Fandong Meng Jianhao Yan Yijin Liu Yuan Gao Xia Zeng ... Peng Li Ming Chen Jie Zhou Sifan Liu Hao Zhou 82 21 0 01 Oct 2020
Evaluation of Text Generation: A Survey Asli Celikyilmaz Elizabeth Clark Jianfeng Gao ELM LM&MA 115 387 0 26 Jun 2020
CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB Holger Schwenk Guillaume Wenzek Sergey Edunov Edouard Grave Armand Joulin 91 261 0 10 Nov 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 352 5,860 0 21 Apr 2019
A Call for Clarity in Reporting BLEU Scores Matt Post 177 2,996 0 23 Apr 2018
Get To The Point: Summarization with Pointer-Generator Networks A. See Peter J. Liu Christopher D. Manning 3DPC 306 4,026 0 14 Apr 2017
A Diversity-Promoting Objective Function for Neural Conversation Models Jiwei Li Michel Galley Chris Brockett Jianfeng Gao W. Dolan 145 2,402 0 11 Oct 2015