Which is better? Exploring Prompting Strategy For LLM-based Metrics

Which is better? Exploring Prompting Strategy For LLM-based Metrics

7 November 2023

ArXiv (abs)PDF HTML

Papers citing "Which is better? Exploring Prompting Strategy For LLM-based Metrics"

9 / 9 papers shown

Title
An Investigation of Prompt Variations for Zero-shot LLM-based Rankers Shuoqi Sun Shengyao Zhuang Shuai Wang Guido Zuccon 119 9 0 20 Jun 2024
LLM-based NLG Evaluation: Current Status and Challenges Mingqi Gao Xinyu Hu Jie Ruan Xiao Pu Xiaojun Wan ELM LM&MA 194 40 0 02 Feb 2024
The Eval4NLP 2023 Shared Task on Prompting Large Language Models as Explainable Metrics Christoph Leiter Juri Opitz Daniel Deutsch Yang Gao Rotem Dror Steffen Eger ALM LRM ELM 92 32 0 30 Oct 2023
Platypus: Quick, Cheap, and Powerful Refinement of LLMs Ariel N. Lee Cole J. Hunter Nataniel Ruiz ALM ObjD 89 143 0 14 Aug 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 458 4,444 0 09 Jun 2023
OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics Jian Guan Zhexin Zhang Zhuoer Feng Zitao Liu Wenbiao Ding Xiaoxi Mao Changjie Fan Minlie Huang 85 61 0 19 May 2021
MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance Wei Zhao Maxime Peyrard Fei Liu Yang Gao Christian M. Meyer Steffen Eger 194 602 0 05 Sep 2019
COMET: Commonsense Transformers for Automatic Knowledge Graph Construction Antoine Bosselut Hannah Rashkin Maarten Sap Chaitanya Malaviya Asli Celikyilmaz Yejin Choi 82 913 0 12 Jun 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 365 5,872 0 21 Apr 2019