v1v2v3 (latest)

BERTScore: Evaluating Text Generation with BERT

21 April 2019

Papers citing "BERTScore: Evaluating Text Generation with BERT"

50 / 3,519 papers shown

Title
MDEval: Evaluating and Enhancing Markdown Awareness in Large Language Models Zhongpu Chen Yixiao Liu Long Shi Zhi-Jie Wang Xingyan Chen Yu Zhao Fuji Ren 94 1 0 28 Jan 2025
Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators Dingkang Yang Dongling Xiao Jinjie Wei Mingcheng Li Zhaoyu Chen Ke Li Li Zhang HILM 167 6 0 28 Jan 2025
Analyzing and Evaluating Correlation Measures in NLG Meta-Evaluation Mingqi Gao Xinyu Hu Li Lin Xiaojun Wan 78 2 0 28 Jan 2025
Learning to Summarize from LLM-generated Feedback Hwanjun Song Taewon Yun Yuho Lee Jihwan Oh Gihun Lee Jason (Jinglun) Cai Hang Su 225 10 0 28 Jan 2025
RELexED: Retrieval-Enhanced Legal Summarization with Exemplar Diversity T. Y. S. S. Santosh Chen Jia Patrick Goroncy Matthias Grabmair AILaw 98 1 0 23 Jan 2025
TrueReason: An Exemplar Personalised Learning System Integrating Reasoning with Foundational Models Sahan Bulathwela Daniel Van Niekerk Jarrod Shipton Maria Perez-Ortiz Benjamin Rosman John Shawe-Taylor LRM 106 0 0 23 Jan 2025
Hypothesis Generation for Materials Discovery and Design Using Goal-Driven and Constraint-Guided LLM Agents Shrinidhi Kumbhar Venkatesh Mishra Kevin Coutinho Divij Handa Ashif Iquebal Chitta Baral 126 7 0 23 Jan 2025
Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek John Pavlopoulos Juli Bakagianni K. Pouli M. Gavriilidou 93 0 0 22 Jan 2025
Vision-Language Models for Automated Chest X-ray Interpretation: Leveraging ViT and GPT-2 Md. Rakibul Islam Md. Zahid Hossain Mustofa Ahmed Most. Sharmin Sultana Samu LM&MA MedIm 107 1 0 21 Jan 2025
Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates Kaifeng Lyu Haoyu Zhao Xinran Gu Dingli Yu Anirudh Goyal Sanjeev Arora ALM 133 59 0 20 Jan 2025
Exploring Iterative Enhancement for Improving Learnersourced Multiple-Choice Question Explanations with Large Language Models Qiming Bao Juho Leinonen A. Peng Wanjun Zhong Gaël Gendron Tim Pistotti Alice Huang Paul Denny Michael Witbrock Jing Liu AI4Ed LRM 301 1 0 20 Jan 2025
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators Yinhong Liu Han Zhou Zhijiang Guo Ehsan Shareghi Ivan Vulić Anna Korhonen Nigel Collier ALM 205 83 0 20 Jan 2025
Decoupled Sequence and Structure Generation for Realistic Antibody Design Nayoung Kim Minsu Kim SungSoo Ahn Jinkyoo Park 112 0 0 20 Jan 2025
BoK: Introducing Bag-of-Keywords Loss for Interpretable Dialogue Response Generation Suvodip Dey M. Desarkar OffRL 95 0 0 20 Jan 2025
RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMs Jiaxing Wu Lin Ning Luyang Liu Harrison Lee Neo Wu Chao Wang Sushant Prakash S. O’Banion Bradley Green Jun Xie 192 1 0 20 Jan 2025
Zero-shot and Few-shot Learning with Instruction-following LLMs for Claim Matching in Automated Fact-checking Dina Pisarevskaya Arkaitz Zubiaga 109 1 0 18 Jan 2025
SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words Junyi Ao Yuancheng Wang Xiaohai Tian Dekun Chen Jing Zhang Lu Lu Yansen Wang Haizhou Li Zhikai Wu AuLLM 177 25 0 17 Jan 2025
Engineering LLM Powered Multi-agent Framework for Autonomous CloudOps Kannan Parthasarathy Karthik Vaidhyanathan Rudra Dhar Venkat Krishnamachari Basil Muhammed ... Sreemaee Akshathala Shrikara Arun Sumant Dubey Mohan Veerubhotla Amey Karan 109 0 0 14 Jan 2025
ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems Mohita Chowdhury Yajie Vera He Aisling Higham Ernest Lim 165 1 0 14 Jan 2025
Hierarchical Repository-Level Code Summarization for Business Applications Using Local LLMs Nilesh Dhulshette Sapan Shah Vinay Kulkarni 57 2 0 14 Jan 2025
Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles Samia Touileb Vladislav Mikhailov Marie Kroka Lilja Øvrelid Erik Velldal 104 3 0 13 Jan 2025
RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment Difei Gu Yunhe Gao Yang Zhou Mu Zhou Dimitris N. Metaxas LM&MA 79 3 0 13 Jan 2025
Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation Shunfan Zheng Xiechi Zhang Gerard de Melo Xiaoling Wang Linlin Wang LM&MA ELM 49 1 0 12 Jan 2025
Scaling Down Semantic Leakage: Investigating Associative Bias in Smaller Language Models Veronika Smilga 92 0 0 11 Jan 2025
A Novel Approach to Scalable and Automatic Topic-Controlled Question Generation in Education Ziqing Li Mutlu Cukurova Sahan Bulathwela 92 3 0 10 Jan 2025
Dialectal and Low-Resource Machine Translation for Aromanian Alexandru-Iulius Jerpelea Alina-Ştefania Rădoi Sergiu Nisioi 48 1 0 08 Jan 2025
Clinical Insights: A Comprehensive Review of Language Models in Medicine Nikita Neveditsin Pawan Lingras V. Mago LM&MA 113 5 0 08 Jan 2025
IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization Jie Cao Dian Jiao Qiang Yan Wenqiao Zhang Siliang Tang Yueting Zhuang 90 1 0 08 Jan 2025
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models Jeonghwan Kim Heng Ji MLLM 106 2 0 08 Jan 2025
Reasoning-Enhanced Self-Training for Long-Form Personalized Text Generation Alireza Salemi Cheng-rong Li Mingyang Zhang Qiaozhu Mei Weize Kong Tao Chen Zhuowan Li Michael Bendersky Hamed Zamani LRM RALM ReLM 110 9 0 07 Jan 2025
Semantic Captioning: Benchmark Dataset and Graph-Aware Few-Shot In-Context Learning for SQL2Text Ali Al-Lawati Jason Lucas Prasenjit Mitra LMTD 131 0 0 06 Jan 2025
Towards Multimodal Metaphor Understanding: A Chinese Dataset and Model for Metaphor Mapping Identification Dongyu Zhang Shengcheng Yin Jiahao Yu Zhiyao Wu Zhen Li Chengpei Xu Xiang Wang Feng Xia 346 0 0 05 Jan 2025
Classifier-Guided Captioning Across Modalities Ariel Shaulov Tal Shaharabany E. Shaar Gal Chechik Lior Wolf 89 0 0 03 Jan 2025
OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios Xize Cheng Dongjie Fu Xiaoda Yang Minghui Fang Ruofan Hu ... Rongjie Huang Linjun Li Yu Chen Tao Jin Zhou Zhao 123 1 0 03 Jan 2025
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks Ziyan Jiang Rui Meng Xinyi Yang Semih Yavuz Yingbo Zhou Wenhu Chen MLLM VLM 195 29 0 03 Jan 2025
An Empirical Evaluation of Large Language Models on Consumer Health Questions Moaiz Abrar Y. Sermet Ibrahim Demir AI4MH LM&MA ELM 83 4 0 03 Jan 2025
BeliN: A Novel Corpus for Bengali Religious News Headline Generation using Contextual Feature Fusion Md Osama Ashim Dey Kawsar Ahmed Muhammad Ashad Kabir 150 0 0 03 Jan 2025
A 2-step Framework for Automated Literary Translation Evaluation: Its Promises and Pitfalls Sheikh Shafayat Dongkeun Yoon Woori Jang Jiwoo Choi Alice Oh Seohyon Jung 205 1 0 03 Jan 2025
A review of faithfulness metrics for hallucination assessment in Large Language Models Ben Malin Tatiana Kalganova Nikoloas Boulgouris HILM 136 2 0 03 Jan 2025
PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations Ruosen Li Teerth Patel Xinya Du LLMAG ALM 185 102 0 03 Jan 2025
CaseSumm: A Large-Scale Dataset for Long-Context Summarization from U.S. Supreme Court Opinions Mourad Heddaya Kyle MacMillan Anup Malani Hongyuan Mei Chenhao Tan AILaw ELM 72 2 0 03 Jan 2025
Dynamic Attention-Guided Context Decoding for Mitigating Context Faithfulness Hallucinations in Large Language Models Yanwen Huang Yong Zhang Ning Cheng Zhitao Li Shaojun Wang Jing Xiao 173 0 0 02 Jan 2025
Fine-grained and Explainable Factuality Evaluation for Multimodal Summarization Liqiang Jing Jingxuan Zuo Yue Zhang 123 9 0 31 Dec 2024
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models Yulei Qin Yuncheng Yang Pengcheng Guo Gang Li Hang Shao Yuchen Shi Zihan Xu Yun Gu Ke Li Xing Sun ALM 207 13 0 31 Dec 2024
The Emotional Spectrum of LLMs: Leveraging Empathy and Emotion-Based Markers for Mental Health Support Alessandro De Grandi Federico Ravenda Andrea Raballo Fabio Crestani AI4MH 72 0 0 31 Dec 2024
Evaluate Summarization in Fine-Granularity: Auto Evaluation with LLM Dong Yuan Eti Rastogi Fen Zhao Sagar Goyal Gautam Naik Sree Prasanna Rajagopal 63 0 0 31 Dec 2024
A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine Hanguang Xiao Feizhong Zhou Xianglong Liu Tianqi Liu Zhipeng Li Xin Liu Xiaoxuan Huang AILaw LM&MA LRM 137 30 0 31 Dec 2024
From Hallucinations to Facts: Enhancing Language Models with Curated Knowledge Graphs Ratnesh Kumar Joshi Sagnik Sengupta Asif Ekbal HILM KELM 79 0 0 24 Dec 2024
FFA Sora, video generation as fundus fluorescein angiography simulator Xinyuan Wu Lili Wang Ruoyu Chen Bowen Liu Weiyi Zhang Xi Yang Yifan Feng M. He Danli Shi VGen 89 1 0 23 Dec 2024
Assessing Human Editing Effort on LLM-Generated Texts via Compression-Based Edit Distance Nicolas Devatine Louis Abraham 41 0 0 23 Dec 2024