v1v2v3 (latest)

BERTScore: Evaluating Text Generation with BERT

21 April 2019

Papers citing "BERTScore: Evaluating Text Generation with BERT"

50 / 3,519 papers shown

Title
QA-prompting: Improving Summarization with Large Language Models using Question-Answering Neelabh Sinha RALM LRM 105 0 0 20 May 2025
AutoRev: Automatic Peer Review System for Academic Research Papers Maitreya Prafulla Chitale Ketaki Mangesh Shetye Harshit Gupta Manav Chaudhary Vasudeva Varma 24 0 0 20 May 2025
TransBench: Benchmarking Machine Translation for Industrial-Scale Applications Haijun Li Tianqi Shi Zifu Shang Yuxuan Han Xueyu Zhao ... Longyue Wang Gongbo Tang Weihua Luo Zhao Xu Kaifu Zhang ELM 53 0 0 20 May 2025
KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025 Sai Koneru Maike Züfle Thai-Binh Nguyen Seymanur Akti Jan Niehues Alexander Waibel 100 0 0 19 May 2025
CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs Guoheng Sun Ziyao Wang Bowei Tian Meng Liu Zheyu Shen Shwai He Yexiao He Wanghao Ye Yiting Wang Ang Li LRM 58 0 0 19 May 2025
Unlocking Non-Invasive Brain-to-Text Dulhan Jayalath Gilad Landau Oiwi Parker Jones 86 2 0 19 May 2025
Predicting Reaction Time to Comprehend Scenes with Foveated Scene Understanding Maps Ziqi Wen Jonathan Skaza Shravan Murlidaran William Y. Wang Miguel P. Eckstein 110 0 0 19 May 2025
CS-Sum: A Benchmark for Code-Switching Dialogue Summarization and the Limits of Large Language Models Sathya Krishnan Suresh Tanmay Surana Lim Zhi Hao Eng Siong Chng ELM 58 0 0 19 May 2025
LEXam: Benchmarking Legal Reasoning on 340 Law Exams Yu Fan Jingwei Ni Jakob Merane Etienne Salimbeni Yang Tian ... Mrinmaya Sachan Alexander Stremitzer Christoph Engel Elliott Ash Joel Niklaus AILaw ELM 126 0 0 19 May 2025
GuRE:Generative Query REwriter for Legal Passage Retrieval Daehee Kim Deokhyung Kang Jonghwi Kim Sangwon Ryu Gary Geunbae Lee RALM AILaw 198 0 0 19 May 2025
An Empirical Study of Many-to-Many Summarization with Large Language Models Jiaan Wang Fandong Meng Zengkui Sun Yunlong Liang Yuxuan Cao Jiarong Xu Haoxiang Shi Jie Zhou 47 0 0 19 May 2025
What are they talking about? Benchmarking Large Language Models for Knowledge-Grounded Discussion Summarization Weixiao Zhou Junnan Zhu Gengyao Li Xianfu Cheng Xinnian Liang Feifei Zhai Zhiyu Li ALM 63 0 0 18 May 2025
Enriching Patent Claim Generation with European Patent Dataset Lekang Jiang Chengzu Li Stephan Goetz 111 2 0 18 May 2025
Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches Yuhang Zhou Xutian Chen Yixin Cao Yuchen Ni Yu He ... Xiang Liu Jian Zhang Chuanjun Ji Guangnan Ye Xipeng Qiu ELM 54 0 0 18 May 2025
GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment Jiwei Tang Zhicheng Zhang Shunlong Wu Jingheng Ye Lichen Bai ... Tingwei Lu Jiaqi Chen Lin Hai Hai-Tao Zheng Hong-Gee Kim 59 0 0 18 May 2025
Online Iterative Self-Alignment for Radiology Report Generation Ting Xiao Lei Shi Yang Zhang HaoFeng Yang Zhe Wang Chenjia Bai 89 0 0 17 May 2025
CorBenchX: Large-Scale Chest X-Ray Error Dataset and Vision-Language Model Benchmark for Report Error Correction Jing Zou Qingqiu Li Chenyu Lian Lihao Liu Xiaohan Yan Shujun Wang Jing Qin VLM 162 0 0 17 May 2025
AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation Xiechi Zhang Zetian Ouyang Linlin Wang Gerard de Melo Zhu Cao Xiaoling Wang Ya Zhang Yanfeng Wang Liang He LM&MA ELM 124 0 0 17 May 2025
FIGhost: Fluorescent Ink-based Stealthy and Flexible Backdoor Attacks on Physical Traffic Sign Recognition Shuai Yuan Guowen Xu Hongwei Li Rui Zhang Xinyuan Qian Wenbo Jiang Hangcheng Cao Qingchuan Zhao AAML 117 0 0 17 May 2025
REMOR: Automated Peer Review Generation with LLM Reasoning and Multi-Objective Reinforcement Learning Pawin Taechoyotin Daniel Acuna LRM 80 0 0 16 May 2025
THELMA: Task Based Holistic Evaluation of Large Language Model Applications-RAG Question Answering Udita Patel Rutu Mulkar Jay Roberts Cibi Chakravarthy Senthilkumar Sujay Gandhi Xiaofei Zheng Naumaan Nayyar Parul Kalra Rafael Castrillo 37 0 0 16 May 2025
Towards Better Evaluation for Generated Patent Claims Lekang Jiang Pascal A Scherz Stephan Goetz ELM 77 2 0 16 May 2025
BLEUBERI: BLEU is a surprisingly effective reward for instruction following Yapei Chang Yekyung Kim Michael Krumdick Amir Zadeh Chuan Li Chris Tanner Mohit Iyyer ALM 163 0 0 16 May 2025
Large Language Models for Cancer Communication: Evaluating Linguistic Quality, Safety, and Accessibility in Generative AI Agnik Saha Victoria Churchill Anny D. Rodriguez Ugur Kursuncu Muhammed Y. Idris LM&MA ELM 80 1 0 15 May 2025
Are LLM-generated plain language summaries truly understandable? A large-scale crowdsourced evaluation Yue Guo Jae Ho Sohn Gondy Leroy Trevor Cohen ELM 71 0 0 15 May 2025
A Multimodal Multi-Agent Framework for Radiology Report Generation Ziruo Yi Ting Xiao Mark V. Albert MedIm 58 0 0 14 May 2025
TARGET: Benchmarking Table Retrieval for Generative Tasks Xingyu Ji Parker Glenn Aditya G. Parameswaran Madelon Hulsebos LMTD RALM 104 1 0 14 May 2025
MorphMark: Flexible Adaptive Watermarking for Large Language Models Zongqi Wang Tianle Gu Baoyuan Wu Yujiu Yang WaLM 122 0 0 14 May 2025
Variational Prefix Tuning for Diverse and Accurate Code Summarization Using Pre-trained Language Models Junda Zhao Yuliang Song Eldan Cohen 102 0 0 14 May 2025
ProdRev: A DNN framework for empowering customers using generative pre-trained transformers Aakash Gupta Nataraj Das 88 1 0 14 May 2025
Securing RAG: A Risk Assessment and Mitigation Framework Lukas Ammann Sara Ott Christoph R. Landolt Marco P. Lehmann SILM 127 1 0 13 May 2025
Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models Donghoon Kim Minji Bae Kyuhong Shim B. Shim 75 1 0 13 May 2025
AI-Mediated Code Comment Improvement Maria Dhakal Chia-Yi Su Robert Wallace Chris Fakhimi Aakash Bansal Toby Jia-Jun Li Yu Huang Collin McMillan SyDa 119 0 0 13 May 2025
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation Jimeng Sun Xianrui Zhong Sizhe Zhou Jiawei Han RALM 73 0 0 12 May 2025
How well do LLMs reason over tabular data, really? Cornelius Wolff Madelon Hulsebos LMTD ELM LRM 98 1 0 12 May 2025
Integrating Video and Text: A Balanced Approach to Multimodal Summary Generation and Evaluation Galann Pennec Zhengyuan Liu Nicholas Asher Philippe Muller Nancy F. Chen VGen 75 0 0 10 May 2025
OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval Wei Yang Jingjing Fu Rongpin Wang Jinyu Wang Lei Song Jiang Bian 61 1 0 10 May 2025
References Indeed Matter? Reference-Free Preference Optimization for Conversational Query Reformulation Doyoung Kim Youngjun Lee Joeun Kim Jihwan Bang Hwanjun Song Susik Yoon Jae-Gil Lee 201 0 0 10 May 2025
Multi-modal Synthetic Data Training and Model Collapse: Insights from VLMs and Diffusion Models Zizhao Hu Mohammad Rostami Jesse Thomason VLM 72 2 0 10 May 2025
Exploring the Feasibility of Multilingual Grammatical Error Correction with a Single LLM up to 9B parameters: A Comparative Study of 17 Models Dawid Wi'sniewski Antoni Solarski Artur Nowakowski LRM 99 0 0 09 May 2025
Summarisation of German Judgments in conjunction with a Class-based Evaluation Bianca Steffes Nils Torben Wiedemann Alexander Gratz Pamela Hochreither Jana Elina Meyer Katharina Luise Schilke AILaw ELM 83 0 0 09 May 2025
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness Jaehyun Jeon Janghan Yoon Minsoo Kim Sumin Shim Yejin Choi Hanbin Kim Youngjae Yu AAML 154 0 0 08 May 2025
Retrieval Augmented Generation Evaluation for Health Documents Mario Ceresa Lorenzo Bertolini Valentin Comte Nicholas Spadaro Barbara Raffael ... Sergio Consoli Amalia Muñoz Piñeiro Alex Patak Maddalena Querci Tobias Wiesenthal RALM 3DV 98 0 1 07 May 2025
Fine-Tuning Large Language Models and Evaluating Retrieval Methods for Improved Question Answering on Building Codes Mohammad Aqib Mohd Hamza Qipei Mei Ying Hei Chui RALM ELM 92 0 0 07 May 2025
GASCADE: Grouped Summarization of Adverse Drug Event for Enhanced Cancer Pharmacovigilance Sofia Jamil Aryan Dabad Bollampalli Areen Reddy S. Saha Rajiv Misra Adil A. Shakur 193 0 0 07 May 2025
Natural Language Generation in Healthcare: A Review of Methods and Applications Mengxian Lyu Xiaohan Li Ziyi Chen Jinqian Pan Cheng Peng Sankalp Talankar Yonghui Wu LM&MA 92 0 0 07 May 2025
MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks Mouath Abu Daoud Chaimae Abouzahir Leen Kharouf Walid Al-Eisawi Nizar Habash Farah E. Shamout LM&MA 119 1 0 06 May 2025
SLOT: Structuring the Output of Large Language Models Darren Yow-Bang Wang Zhengyuan Shen Soumya Smruti Mishra Zhichao Xu Yifei Teng Haibo Ding LLMAG 67 0 0 06 May 2025
Uncertainty-Aware Large Language Models for Explainable Disease Diagnosis Shuang Zhou Jiashuo Wang Zidu Xu Song Wang David Brauer ... Zaifu Zhan Yu Hou Mingquan Lin Genevieve B. Melton Rui Zhang 73 0 0 06 May 2025
SynSHRP2: A Synthetic Multimodal Benchmark for Driving Safety-critical Events Derived from Real-world Driving Data Liang Shi Boyu Jiang Zhenyuan Yuan Miguel A. Perez Feng Guo 54 0 0 06 May 2025