Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing

30 April 2020

Papers citing "Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing"

45 / 45 papers shown

Title
Investigating Length Issues in Document-level Machine Translation Ziqian Peng Rachel Bawden François Yvon 71 1 0 23 Dec 2024
Adapters for Altering LLM Vocabularies: What Languages Benefit the Most? HyoJung Han Akiko Eriguchi Haoran Xu Hieu T. Hoang Marine Carpuat Huda Khayrallah VLM 43 2 0 12 Oct 2024
X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale Haoran Xu Kenton W. Murray Philipp Koehn Hieu T. Hoang Akiko Eriguchi Huda Khayrallah 44 8 0 04 Oct 2024
Languages Transferred Within the Encoder: On Representation Transfer in Zero-Shot Multilingual Translation Zhi Qu Chenchen Ding Taro Watanabe 85 1 0 12 Jun 2024
MT-Ranker: Reference-free machine translation evaluation by inter-system ranking Ibraheem Muhammad Moosa Rui Zhang Wenpeng Yin 27 5 0 30 Jan 2024
Machine Translation Models are Zero-Shot Detectors of Translation Direction Michelle Wastl Jannis Vamvas Rico Sennrich VLM 28 0 0 12 Jan 2024
Unsupervised Translation Quality Estimation Exploiting Synthetic Data and Pre-trained Multilingual Encoder Yuto Kuroda Atsushi Fujita Tomoyuki Kajiwara Takashi Ninomiya 17 0 0 09 Nov 2023
OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization Yuchen Shen Xiaojun Wan 38 9 0 27 Oct 2023
Reranking for Natural Language Generation from Logical Forms: A Study based on Large Language Models Levon Haroutunian Zhuang Li Lucian Galescu Philip R. Cohen Raj Tumuluri Gholamreza Haffari LRM 31 1 0 21 Sep 2023
Learning Evaluation Models from Large Language Models for Sequence Generation Chenglong Wang Hang Zhou Kai-Chun Chang Tongran Liu Chunliang Zhang Quan Du Tong Xiao Yue Zhang Jingbo Zhu ELM 46 3 0 08 Aug 2023
Psychological Metrics for Dialog System Evaluation Salvatore Giorgi Shreya Havaldar Farhan S. Ahmed Zuhaib Akhtar Shalaka Vaidya Gary Pan Pallavi V. Kulkarni H. Andrew Schwartz Joao Sedoc 22 2 0 24 May 2023
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation Sewon Min Kalpesh Krishna Xinxi Lyu M. Lewis Wen-tau Yih Pang Wei Koh Mohit Iyyer Luke Zettlemoyer Hannaneh Hajishirzi HILM ALM 86 607 0 23 May 2023
Evaluating Factual Consistency of Texts with Semantic Role Labeling Jing Fan Dennis Aumiller Michael Gertz HILM 39 4 0 22 May 2023
Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters Proyag Pal Brian Thompson Yogesh Virkar Prashant Mathur Alexandra Chronopoulou Marcello Federico 32 4 0 22 May 2023
Improving Metrics for Speech Translation Claudio Paonessa Dominik Frefel Manfred Vogel 31 1 0 22 May 2023
ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness Archiki Prasad Swarnadeep Saha Xiang Zhou Joey Tianyi Zhou LRM 32 46 0 21 Apr 2023
Paraphrase Detection: Human vs. Machine Content Jonas Becker Jan Philip Wahle Terry Ruas Bela Gipp DeLMO 35 14 0 24 Mar 2023
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models Qingyu Lu Baopu Qiu Liang Ding Liping Xie Tom Kocmi Dacheng Tao LRM ALM ELM 26 108 0 24 Mar 2023
Is ChatGPT a Good NLG Evaluator? A Preliminary Study Jiaan Wang Yunlong Liang Fandong Meng Zengkui Sun Haoxiang Shi Zhixu Li Jinan Xu Jianfeng Qu Jie Zhou LM&MA ELM ALM AI4MH 62 449 0 07 Mar 2023
Dubbing in Practice: A Large Scale Study of Human Localization With Insights for Automatic Dubbing William Brannon Yogesh Virkar Brian Thompson 42 21 0 23 Dec 2022
Toward Human-Like Evaluation for Natural Language Generation with Error Analysis Qingyu Lu Liang Ding Liping Xie Kanjian Zhang Derek F. Wong Dacheng Tao ELM ALM 36 14 0 20 Dec 2022
On the Blind Spots of Model-Based Evaluation Metrics for Text Generation Tianxing He Jingyu Zhang Tianle Wang Sachin Kumar Kyunghyun Cho James R. Glass Yulia Tsvetkov 40 44 0 20 Dec 2022
RISE: Leveraging Retrieval Techniques for Summarization Evaluation David C. Uthus Jianmo Ni RALM 19 0 0 17 Dec 2022
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning O. Yu. Golovneva Moya Chen Spencer Poff Martin Corredor Luke Zettlemoyer Maryam Fazel-Zarandi Asli Celikyilmaz ReLM LRM 34 139 0 15 Dec 2022
HaRiM $^+$ : Evaluating Summary Quality with Hallucination Risk Seonil Son Junsoo Park J. Hwang Junghwa Lee Hyungjong Noh Yeonsoo Lee HILM 19 8 0 22 Nov 2022
RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question Alireza Mohammadshahi Thomas Scialom Majid Yazdani Pouya Yanki Angela Fan James Henderson Marzieh Saeidi 31 20 0 02 Nov 2022
Dialect-robust Evaluation of Generated Text Jiao Sun Thibault Sellam Elizabeth Clark Tu Vu Timothy Dozat Dan Garrette Aditya Siddhant Jacob Eisenstein Sebastian Gehrmann 26 19 0 02 Nov 2022
DEMETR: Diagnosing Evaluation Metrics for Translation Marzena Karpinska N. Raj Katherine Thai Yixiao Song Ankita Gupta Mohit Iyyer 29 38 0 25 Oct 2022
BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation Tianxiang Sun Junliang He Xipeng Qiu Xuanjing Huang 24 44 0 14 Oct 2022
GAPX: Generalized Autoregressive Paraphrase-Identification X Yi Zhou Renyu Li Hayden Housen Ser-Nam Lim BDL 44 0 0 05 Oct 2022
Out-of-Distribution Detection and Selective Generation for Conditional Language Models Jie Jessie Ren Jiaming Luo Yao-Min Zhao Kundan Krishna Mohammad Saleh Balaji Lakshminarayanan Peter J. Liu OODD 75 98 0 30 Sep 2022
Multilingual Coreference Resolution in Multiparty Dialogue Boyuan Zheng Patrick Xia M. Yarmohammadi Benjamin Van Durme 58 3 0 02 Aug 2022
SMART: Sentences as Basic Units for Text Evaluation Reinald Kim Amplayo Peter J. Liu Yao-Min Zhao Shashi Narayan 38 21 0 01 Aug 2022
Repro: An Open-Source Library for Improving the Reproducibility and Usability of Publicly Available Research Code Daniel Deutsch Dan Roth AI4CE 45 2 0 29 Apr 2022
UniTE: Unified Translation Evaluation Boyi Deng Dayiheng Liu Baosong Yang Haibo Zhang Boxing Chen Derek F. Wong Lidia S. Chao 41 41 0 28 Apr 2022
Towards Explainable Evaluation Metrics for Natural Language Generation Christoph Leiter Piyawat Lertvittayakumjorn M. Fomicheva Wei-Ye Zhao Yang Gao Steffen Eger AAML ELM 30 20 0 21 Mar 2022
Onception: Active Learning with Expert Advice for Real World Machine Translation Vania Mendoncca Ricardo Rei Luísa Coheur Alberto Sardinha INESC-ID Lisboa 30 6 0 09 Mar 2022
DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence Wei-Ye Zhao Michael Strube Steffen Eger 27 37 0 26 Jan 2022
Learning Compact Metrics for MT Amy Pu Hyung Won Chung Ankur P. Parikh Sebastian Gehrmann Thibault Sellam 33 99 0 12 Oct 2021
Improving Arabic Diacritization by Learning to Diacritize and Translate Brian Thompson A. Alshehri 34 10 0 29 Sep 2021
Automatic Text Evaluation through the Lens of Wasserstein Barycenters Pierre Colombo Guillaume Staerman Chloé Clavel Pablo Piantanida 27 41 0 27 Aug 2021
To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation Tom Kocmi C. Federmann Roman Grundkiewicz Marcin Junczys-Dowmunt Hitokazu Matsushita Arul Menezes 31 204 0 22 Jul 2021
Generative Pretraining for Paraphrase Evaluation J. Weston R. Lenain U. Meepegama E. Fristed AIMat 27 10 0 17 Jul 2021
BARTScore: Evaluating Generated Text as Text Generation Weizhe Yuan Graham Neubig Pengfei Liu 50 809 0 22 Jun 2021
Investigating Multilingual NMT Representations at Scale Sneha Kudugunta Ankur Bapna Isaac Caswell N. Arivazhagan Orhan Firat LRM 144 120 0 05 Sep 2019