BARTScore: Evaluating Generated Text as Text Generation

22 June 2021

Graham Neubig

Papers citing "BARTScore: Evaluating Generated Text as Text Generation"

50 / 537 papers shown

Title
Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts Fan Gao Hang Jiang Rui Yang Qingcheng Zeng Jinghui Lu Moritz Blum Dairui Liu Tianwei She Yuang Jiang Irene Z Li ELM ALM LM&MA 35 8 0 21 Aug 2023
Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual and Semantic Credit Assignment Qi Chen Chaorui Deng Zixiong Huang Bowen Zhang Mingkui Tan Qi Wu EGVM 19 0 0 16 Aug 2023
Dialogue for Prompting: a Policy-Gradient-Based Discrete Prompt Generation for Few-shot Learning Chengzhengxu Li Xiaoming Liu Yichen Wang Duyi Li Y. Lan Chao Shen 37 5 0 14 Aug 2023
Generating Faithful Text From a Knowledge Graph with Noisy Reference Text Tahsina Hashem Weiqing Wang Derry Wijaya Mohammed Eunus Ali Yuan-Fang Li 29 3 0 12 Aug 2023
A Preliminary Study of the Intrinsic Relationship between Complexity and Alignment Ying Zhao Yu Bowen Binyuan Hui Haiyang Yu Fei Huang Yongbin Li N. Zhang 44 23 0 10 Aug 2023
Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval Tim Hartill Diana Benavides-Prado Michael Witbrock Patricia J. Riddle ReLM LRM 28 1 0 09 Aug 2023
Learning Evaluation Models from Large Language Models for Sequence Generation Chenglong Wang Hang Zhou Kai-Chun Chang Tongran Liu Chunliang Zhang Quan Du Tong Xiao Yue Zhang Jingbo Zhu ELM 46 3 0 08 Aug 2023
ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation Chenglong Wang Hang Zhou Yimin Hu Yi Huo Bei Li Tongran Liu Tong Xiao Jingbo Zhu 27 8 0 04 Aug 2023
Trustworthiness of Children Stories Generated by Large Language Models Prabin Bhandari H. M. Brennan 38 2 0 25 Jul 2023
The Extractive-Abstractive Axis: Measuring Content "Borrowing" in Generative Language Models Nedelina Teneva 26 0 0 20 Jul 2023
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering Pei Ke Fei Huang Fei Mi Yasheng Wang Qun Liu Xiaoyan Zhu Minlie Huang ReLM ELM 36 10 0 13 Jul 2023
Improving Factuality of Abstractive Summarization via Contrastive Reward Learning Ethan Chern Zhiruo Wang Sanjan Das Bhavuk Sharma Pengfei Liu Graham Neubig HILM 12 14 0 10 Jul 2023
BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training Yiming Yan Tao Wang Chengqi Zhao Shujian Huang Jiajun Chen Mingxuan Wang 24 22 0 06 Jul 2023
Text Alignment Is An Efficient Unified Model for Massive NLP Tasks Yuheng Zha Yichi Yang Ruichen Li Zhiting Hu ALM 22 9 0 06 Jul 2023
Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question Answering A. S. Penamakuri Manish Gupta Mithun Das Gupta Anand Mishra 42 7 0 29 Jun 2023
Prompt Ensemble Self-training for Open-Vocabulary Domain Adaptation Jiaxing Huang Jingyi Zhang Han Qiu Sheng Jin Shijian Lu VPVLM VLM 21 0 0 29 Jun 2023
Verifying Safety of Neural Networks from Topological Perspectives Zhen Liang Dejin Ren Bai Xue J. Wang Wenjing Yang Wanwei Liu AAML 33 0 0 27 Jun 2023
C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation Liliang Ren Mankeerat Sidhu Qi Zeng R. Reddy Heng Ji Chengxiang Zhai 19 6 0 27 Jun 2023
How About Kind of Generating Hedges using End-to-End Neural Models? Alafate Abulimiti Chloé Clavel Justine Cassell 24 4 0 26 Jun 2023
Large Language Models as Sous Chefs: Revising Recipes with GPT-3 Alyssa Hwang B. Li Zhaoyi Hou Dan Roth 35 2 0 24 Jun 2023
Towards Explainable Evaluation Metrics for Machine Translation Christoph Leiter Piyawat Lertvittayakumjorn M. Fomicheva Wei-Ye Zhao Yang Gao Steffen Eger ELM 35 13 0 22 Jun 2023
Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation Ran Zhang Jihed Ouni Steffen Eger 32 6 0 22 Jun 2023
MISMATCH: Fine-grained Evaluation of Machine-generated Text with Mismatch Error Types K. Murugesan Sarathkrishna Swaminathan Soham Dan Subhajit Chaudhury Chulaka Gunasekara ... Ibrahim Abdelaziz Achille Fokoue Pavan Kapanipathi Salim Roukos Alexander G. Gray 42 5 0 18 Jun 2023
Seen to Unseen: Exploring Compositional Generalization of Multi-Attribute Controllable Dialogue Generation Weihao Zeng Lulu Zhao Keqing He Ruotong Geng Jingang Wang Wei Wu Weiran Xu 40 3 0 17 Jun 2023
Opportunities and Challenges for ChatGPT and Large Language Models in Biomedicine and Health Shubo Tian Qiao Jin Lana Yeganova Po-Ting Lai Qingqing Zhu ... Donald C. Comeau R. Islamaj Aadit Kapoor Xin Gao Zhiyong Lu LM&MA MedIm AI4MH 114 210 0 15 Jun 2023
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance Qianqian Xie Weiguang Han Xiao Zhang Yanzhao Lai Min Peng Alejandro Lopez-Lira Jimin Huang ALM 20 136 0 08 Jun 2023
Reference Matters: Benchmarking Factual Error Correction for Dialogue Summarization with Fine-grained Evaluation Framework Mingqi Gao Xiaojun Wan Jia Su Zhefeng Wang Baoxing Huai HILM 16 8 0 08 Jun 2023
Benchmarking Foundation Models with Language-Model-as-an-Examiner Yushi Bai Jiahao Ying Yixin Cao Xin Lv Yuze He ... Yijia Xiao Haozhe Lyu Jiayin Zhang Juanzi Li Lei Hou ALM ELM 45 136 0 07 Jun 2023
Interactive Editing for Text Summarization Yujia Xie Xun Wang Si-Qing Chen Wayne Xiong Pengcheng He KELM 112 2 0 05 Jun 2023
LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion Dongfu Jiang Xiang Ren Bill Yuchen Lin ELM 22 274 0 05 Jun 2023
Revisiting the Role of Language Priors in Vision-Language Models Zhiqiu Lin Xinyue Chen Deepak Pathak Pengchuan Zhang Deva Ramanan VLM 25 22 0 02 Jun 2023
Multi-Dimensional Evaluation of Text Summarization with In-Context Learning Sameer Jain Vaishakh Keshava Swarnashree Mysore Sathyendra Patrick Fernandes Pengfei Liu Graham Neubig Chunting Zhou ELM 11 35 0 01 Jun 2023
Interpretable Math Word Problem Solution Generation Via Step-by-step Planning Mengxue Zhang Zichao Wang Zhichao Yang Weiqi Feng Andrew S. Lan LRM 22 16 0 01 Jun 2023
Breeding Machine Translations: Evolutionary approach to survive and thrive in the world of automated evaluation Josef Jon Ondrej Bojar 32 10 0 30 May 2023
KEYword based Sampling (KEYS) for Large Language Models V. JyothirS Zuhaib Akhtar 12 1 0 30 May 2023
A Critical Evaluation of Evaluations for Long-form Question Answering Fangyuan Xu Yixiao Song Mohit Iyyer Eunsol Choi ELM 37 97 0 29 May 2023
Large Language Models are not Fair Evaluators Peiyi Wang Lei Li Liang Chen Zefan Cai Dawei Zhu Binghuai Lin Yunbo Cao Qi Liu Tianyu Liu Zhifang Sui ALM 27 519 0 29 May 2023
Ask an Expert: Leveraging Language Models to Improve Strategic Reasoning in Goal-Oriented Dialogue Models Qiang Zhang Jason Naradowsky Yusuke Miyao ELM 26 32 0 29 May 2023
An Investigation of Evaluation Metrics for Automated Medical Note Generation Asma Ben Abacha Wen-wai Yim George Michalopoulos Thomas Lin 22 22 0 27 May 2023
UMSE: Unified Multi-scenario Summarization Evaluation Shen Gao Zhitao Yao Chongyang Tao Xiuying Chen Pengjie Ren Z. Ren Zhumin Chen 30 5 0 26 May 2023
AlignScore: Evaluating Factual Consistency with a Unified Alignment Function Yuheng Zha Yichi Yang Ruichen Li Zhiting Hu HILM 21 180 0 26 May 2023
Annotating and Detecting Fine-grained Factual Errors for Dialogue Summarization Rongxin Zhu Jianzhong Qi Jey Han Lau 44 10 0 26 May 2023
Measuring the Effect of Influential Messages on Varying Personas Chenkai Sun Jinning Li Hou Pong Chan ChengXiang Zhai Heng Ji 11 6 0 25 May 2023
Do You Hear The People Sing? Key Point Analysis via Iterative Clustering and Abstractive Summarisation Hao Li Viktor Schlegel R. Batista-Navarro Goran Nenadic 23 6 0 25 May 2023
MERGE: Fast Private Text Generation Zi Liang Pinghui Wang Ruofei Zhang Nuo Xu Lifeng Xing Shuo Zhang 18 6 0 25 May 2023
Healing Unsafe Dialogue Responses with Weak Supervision Signals Zi Liang Pinghui Wang Ruofei Zhang Shuo Zhang Xiaofan Ye Yi Huang Junlan Feng 29 1 0 25 May 2023
Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References Tianyi Tang Hongyuan Lu Yuchen Eleanor Jiang Haoyang Huang Dongdong Zhang Wayne Xin Zhao Tom Kocmi Furu Wei 25 5 0 24 May 2023
Evaluating Evaluation Metrics: A Framework for Analyzing NLG Evaluation Metrics using Measurement Theory Ziang Xiao Susu Zhang Vivian Lai Q. V. Liao ELM 35 24 0 24 May 2023
Psychological Metrics for Dialog System Evaluation Salvatore Giorgi Shreya Havaldar Farhan S. Ahmed Zuhaib Akhtar Shalaka Vaidya Gary Pan Pallavi V. Kulkarni H. A. Schwartz Joao Sedoc 22 2 0 24 May 2023
Gender Biases in Automatic Evaluation Metrics for Image Captioning Haoyi Qiu Zi-Yi Dou Tianlu Wang Asli Celikyilmaz Nanyun Peng EGVM 26 14 0 24 May 2023