BARTScore: Evaluating Generated Text as Text Generation

22 June 2021

Graham Neubig

Papers citing "BARTScore: Evaluating Generated Text as Text Generation"

50 / 535 papers shown

Title
Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore Junchao Wu Runzhe Zhan Derek F. Wong Shu Yang Xuebo Liu Lidia S. Chao Min Zhang DeLMO 46 4 0 07 May 2024
Self-Improving Customer Review Response Generation Based on LLMs Guy Azov Tatiana Pelc Adi Fledel Alon Gila Kamhi 40 0 0 06 May 2024
OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources Martin Docekal Martin Fajcik Pavel Smrz VLM 35 0 0 03 May 2024
Understanding Position Bias Effects on Fairness in Social Multi-Document Summarization Olubusayo Olabisi Ameeta Agrawal 37 2 0 03 May 2024
RepEval: Effective Text Evaluation with LLM Representation Shuqian Sheng Yi Xu Tianhang Zhang Zanwei Shen Luoyi Fu Jiaxin Ding Lei Zhou Xinbing Wang Cheng Zhou 27 1 0 30 Apr 2024
Context-Aware Machine Translation with Source Coreference Explanation Huy Hien Vu Hidetaka Kamigaito Taro Watanabe LRM 44 2 0 30 Apr 2024
MediFact at MEDIQA-CORR 2024: Why AI Needs a Human Touch Nadia Saeed 27 1 0 27 Apr 2024
Advances and Open Challenges in Federated Learning with Foundation Models Chao Ren Han Yu Hongyi Peng Xiaoli Tang Anran Li ... A. Tan Bo Zhao Xiaoxiao Li Zengxiang Li Qiang Yang FedML AIFin AI4CE 78 7 0 23 Apr 2024
From Matching to Generation: A Survey on Generative Information Retrieval Xiaoxi Li Jiajie Jin Yujia Zhou Yuyao Zhang Peitian Zhang Yutao Zhu Zhicheng Dou 3DV 84 46 0 23 Apr 2024
Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing Dujian Ding Ankur Mallick Chi Wang Robert Sim Subhabrata Mukherjee Victor Rühle L. Lakshmanan Ahmed Hassan Awadallah 93 78 0 22 Apr 2024
Text-Tuple-Table: Towards Information Integration in Text-to-Table Generation via Global Tuple Extraction Zheye Deng Chunkit Chan Weiqi Wang Yuxi Sun Wei Fan Tianshi Zheng Yauwai Yim Yangqiu Song LMTD RALM 43 10 0 22 Apr 2024
LLMChain: Blockchain-based Reputation System for Sharing and Evaluating Large Language Models Mouhamed Amine Bouchiha Quentin Telnoff Souhail Bakkali R. Champagnat Mourad Rabah Mickael Coustaty Y. Ghamri-Doudane LRM 42 3 0 20 Apr 2024
AdvisorQA: Towards Helpful and Harmless Advice-seeking Question Answering with Collective Intelligence Minbeom Kim Hwanhee Lee Joonsuk Park Hwaran Lee Kyomin Jung 40 1 0 18 Apr 2024
Unifying Bias and Unfairness in Information Retrieval: A Survey of Challenges and Opportunities with Large Language Models Sunhao Dai Chen Xu Shicheng Xu Liang Pang Zhenhua Dong Jun Xu 48 63 0 17 Apr 2024
Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation Juhwan Choi Jungmin Yun Kyohoon Jin Youngbin Kim 32 4 0 15 Apr 2024
Mitigating Hallucination in Abstractive Summarization with Domain-Conditional Mutual Information Kyubyung Chae Jaepill Choi Yohan Jo Taesup Kim HILM 30 1 0 15 Apr 2024
FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models Zhuohao Yu Chang Gao Wenjin Yao Yidong Wang Zhengran Zeng Wei Ye Jindong Wang Yue Zhang Shikun Zhang 46 1 0 09 Apr 2024
Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data Jingyu Zhang Marc Marone Tianjian Li Benjamin Van Durme Daniel Khashabi 93 9 0 05 Apr 2024
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction Yuchen Fan Yantao Liu Zijun Yao Jifan Yu Lei Hou Juanzi Li ELM 29 3 0 04 Apr 2024
Schroedinger's Threshold: When the AUC doesn't predict Accuracy Juri Opitz UQCV 41 0 0 04 Apr 2024
ALOHa: A New Measure for Hallucination in Captioning Models Suzanne Petryk David M. Chan Anish Kachinthaya Haodi Zou John F. Canny Joseph E. Gonzalez Trevor Darrell HILM 39 11 0 03 Apr 2024
Prior Constraints-based Reward Model Training for Aligning Large Language Models Hang Zhou Chenglong Wang Yimin Hu Tong Xiao Chunliang Zhang Jingbo Zhu ALM 46 2 0 01 Apr 2024
A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias Yuemei Xu Ling Hu Jiayi Zhao Zihan Qiu Yuqi Ye Hanwen Gu LRM 27 36 0 01 Apr 2024
CoUDA: Coherence Evaluation via Unified Data Augmentation Dawei Zhu Wenhao Wu Yifan Song Fangwei Zhu Ziqiang Cao Sujian Li 28 0 0 31 Mar 2024
Towards Multimodal Video Paragraph Captioning Models Robust to Missing Modality Sishuo Chen Lei Li Shuhuai Ren Rundong Gao Yuanxin Liu Xiaohan Bi Xu Sun Lu Hou 45 3 0 28 Mar 2024
CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists Yukyung Lee Joonghoon Kim Jaehee Kim Hyowon Cho Pilsung Kang Pilsung Kang Najoung Kim ELM 47 4 0 27 Mar 2024
Hallucination Detection in Foundation Models for Decision-Making: A Flexible Definition and Review of the State of the Art Neeloy Chakraborty Melkior Ornik Katherine Driggs-Campbell LRM 57 9 0 25 Mar 2024
Multi-Level Explanations for Generative Language Models Lucas Monteiro Paes Dennis L. Wei Hyo Jin Do Hendrik Strobelt Ronny Luss ... Manish Nagireddy K. Ramamurthy P. Sattigeri Werner Geyer Soumya Ghosh FAtt 52 8 0 21 Mar 2024
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? Shuqian Sheng Yi Xu Luoyi Fu Jiaxin Ding Lei Zhou Xinbing Wang Cheng Zhou 43 3 0 21 Mar 2024
M $^3$ AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset Zhe Chen Heyang Liu Wenyi Yu Guangzhi Sun Hongcheng Liu Ji Wu Chao Zhang Yu Wang Yanfeng Wang VGen 57 1 0 21 Mar 2024
Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese Meet Doshi Raj Dabre Pushpak Bhattacharyya SyDa 39 2 0 20 Mar 2024
TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling Weiran Chen Xin Li Jiaqi Su Guiqian Zhu Ying Li Yi Ji Chunping Liu 37 0 0 18 Mar 2024
DEE: Dual-stage Explainable Evaluation Method for Text Generation Shenyu Zhang Yu Li Rui Wu Xiutian Huang Yongrui Chen Wenhao Xu Guilin Qi 16 1 0 18 Mar 2024
Correcting misinformation on social media with a large language model Xinyi Zhou Ashish Sharma Amy X. Zhang Tim Althoff KELM 51 2 0 17 Mar 2024
Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering Hongda Sun Yuxuan Liu Chengwei Wu Haiyu Yan Cheng Tai Xin Gao Shuo Shang Rui Yan 30 7 0 08 Mar 2024
Low-Resource Court Judgment Summarization for Common Law Systems Shuaiqi Liu Jiannong Cao Yicong Li Ruosong Yang Zhiyuan Wen ELM AILaw 26 2 0 07 Mar 2024
FaaF: Facts as a Function for the evaluation of generated text Vasileios Katranidis Gabor Barany HILM RALM 47 4 0 06 Mar 2024
Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges Bosheng Ding Chengwei Qin Ruochen Zhao Tianze Luo Xinze Li Guizhen Chen Wenhan Xia Junjie Hu A. Luu Chenyu You 31 18 0 05 Mar 2024
A Comprehensive Survey on Process-Oriented Automatic Text Summarization with Exploration of LLM-Based Methods Hanlei Jin Yang Zhang Dan Meng Jun Wang Jinghua Tan 68 80 0 05 Mar 2024
FAC $^2$ E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition Xiaoqiang Wang Bang Liu Lingfei Wu 35 0 0 29 Feb 2024
Polos: Multimodal Metric Learning from Human Feedback for Image Captioning Yuiga Wada Kanta Kaneda Daichi Saito Komei Sugiura 34 24 0 28 Feb 2024
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions Hanjie Chen Zhouxiang Fang Yash Singla Mark Dredze ELM AI4MH 49 32 0 28 Feb 2024
From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions Fabian Retkowski Alexander Waibel 35 6 0 27 Feb 2024
HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition Yuxuan Liu Tianchi Yang Shaohan Huang Zihan Zhang Haizhen Huang Furu Wei Weiwei Deng Feng Sun Qi Zhang 34 13 0 24 Feb 2024
UFO: a Unified and Flexible Framework for Evaluating Factuality of Large Language Models Zhaoheng Huang Zhicheng Dou Yutao Zhu Ji-Rong Wen HILM 38 1 0 22 Feb 2024
Rethinking Scientific Summarization Evaluation: Grounding Explainable Metrics on Facet-aware Benchmark Xiuying Chen Tairan Wang Qingqing Zhu Taicheng Guo Shen Gao Zhiyong Lu Xin Gao Xiangliang Zhang 80 2 0 22 Feb 2024
LongWanjuan: Towards Systematic Measurement for Long Text Quality Kai Lv Xiaoran Liu Qipeng Guo Hang Yan Conghui He Xipeng Qiu Dahua Lin 33 4 0 21 Feb 2024
FinBen: A Holistic Financial Benchmark for Large Language Models Qianqian Xie Weiguang Han Zhengyu Chen Ruoyu Xiang Xiao Zhang ... Yanzhao Lai Hao Wang Min Peng Sophia Ananiadou Jimin Huang AIFin 48 33 0 20 Feb 2024
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness Danna Zheng Danyang Liu Mirella Lapata Jeff Z. Pan HILM 49 6 0 19 Feb 2024
FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema Junru Lu Siyu An Min Zhang Yulan He Di Yin Xing Sun 48 2 0 19 Feb 2024