LLM-based NLG Evaluation: Current Status and Challenges

2 February 2024

Papers citing "LLM-based NLG Evaluation: Current Status and Challenges"

32 / 32 papers shown

Title
Cer-Eval: Certifiable and Cost-Efficient Evaluation Framework for LLMs G. Wang Z. Chen Bo Li Haifeng Xu 126 0 0 02 May 2025
ConSens: Assessing context grounding in open-book question answering Ivan Vankov Matyo Ivanov Adriana Correia Victor Botev ELM 63 0 0 30 Apr 2025
Large Language Models as Span Annotators Zdeněk Kasner Vilém Zouhar Patrícia Schmidtová Ivan Kartáč Kristýna Onderková Ondřej Plátek Dimitra Gkatzia Saad Mahamood Ondrej Dusek Simone Balloccu ALM 35 0 0 11 Apr 2025
Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models José P. Pombal Nuno M. Guerreiro Ricardo Rei André F. T. Martins ALM 70 0 0 01 Apr 2025
When 'YES' Meets 'BUT': Can Large Models Comprehend Contradictory Humor Through Comparative Reasoning? Tuo Liang Zhe Hu Jing Li Hao Zhang Yiren Lu ... Yiran Qiao Disheng Liu Jeirui Peng Jing Ma Yu Yin 52 0 0 29 Mar 2025
Towards Effective and Efficient Context-aware Nucleus Detection in Histopathology Whole Slide Images Zhongyi Shui Ruizhe Guo Honglin Li Yuxuan Sun Yunlong Zhang Chenglu Zhu Jiatong Cai Pingyi Chen Yanzhou Su Lin Yang 46 0 0 04 Mar 2025
From Cool Demos to Production-Ready FMware: Core Challenges and a Technology Roadmap Gopi Krishnan Rajbahadur G. Oliva Dayi Lin Ahmed E. Hassan 46 1 0 28 Jan 2025
Empowering Meta-Analysis: Leveraging Large Language Models for Scientific Synthesis Jawad Ibn Ahad Rafeed Mohammad Sultan Abraham Kaikobad Fuad Rahman M. R. Amin Nabeel Mohammed Shafin Rahman 40 0 0 16 Nov 2024
4-LEGS: 4D Language Embedded Gaussian Splatting Gal Fiebelman Tamir Cohen Ayellet Morgenstern Peter Hedman Hadar Averbuch-Elor 3DGS 46 3 0 14 Oct 2024
RevisEval: Improving LLM-as-a-Judge via Response-Adapted References Qiyuan Zhang Yufei Wang Tiezheng YU Yuxin Jiang Chuhan Wu ... Xin Jiang Lifeng Shang Ruiming Tang Fuyuan Lyu Chen Ma 31 4 0 07 Oct 2024
A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions Laurène Vaugrante Mathias Niepert Thilo Hagendorff LRM 35 1 0 30 Sep 2024
Broadening Access to Simulations for End-Users via Large Language Models: Challenges and Opportunities Philippe J. Giabbanelli Jose J. Padilla Ameeta Agrawal 30 2 0 03 Sep 2024
On-Device Language Models: A Comprehensive Review Jiajun Xu Zhiyuan Li Wei Chen Qun Wang Xin Gao Qi Cai Ziyuan Ling 44 27 0 26 Aug 2024
Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization Ankan Mullick Sombit Bose Rounak Saha Ayan Kumar Bhowmick Aditya Vempaty Pawan Goyal Niloy Ganguly Prasenjit Dey Ravi Kokku 35 0 0 05 Aug 2024
From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future Haolin Jin Linghan Huang Haipeng Cai Jun Yan Bo Li Huaming Chen 78 24 0 05 Aug 2024
Automated Review Generation Method Based on Large Language Models Shican Wu Xiao Ma Dehui Luo Lulu Li Xiangcheng Shi ... Ran Luo Chunlei Pei Zhijian Zhao Zhi-Jian Zhao Jinlong Gong 77 0 0 30 Jul 2024
Leveraging Large Language Models for Integrated Satellite-Aerial-Terrestrial Networks: Recent Advances and Future Directions Shumaila Javaid R. A. Khalil Nasir Saeed Bin He Mohamed-Slim Alouini 39 9 0 05 Jul 2024
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent Wenjia Xu Zijian Yu Yixu Wang Jiuniu Wang Yuanben Zhang Guangzuo Li Mugen Peng LLMAG 48 7 0 11 Jun 2024
CRAG -- Comprehensive RAG Benchmark Xiao Yang Kai Sun Hao Xin Yushi Sun Nikita Bhalla ... Nirav Shah Rakesh Wanga Anuj Kumar Wen-tau Yih Xin Luna Dong 23 22 0 07 Jun 2024
Large Language Models for UAVs: Current State and Pathways to the Future Shumaila Javaid Nasir Saeed Bin He 37 17 0 02 May 2024
Large Language Models Meet User Interfaces: The Case of Provisioning Feedback Stanislav Pozdniakov Jonathan Brazil Solmaz Abdi Aneesha Bakharia Shazia Sadiq D. Gašević Paul Denny Hassan Khosravi ELM 34 15 0 17 Apr 2024
On Protecting the Data Privacy of Large Language Models (LLMs): A Survey Biwei Yan Kun Li Minghui Xu Yueyan Dong Yue Zhang Zhaochun Ren Xiuzhen Cheng AILaw PILM 70 76 0 08 Mar 2024
Natural Language Reinforcement Learning Xidong Feng Bo Liu Mengyue Yang Ziyan Wang Girish A. Koushiks Yali Du Ying Wen Jun Wang OffRL 35 3 0 11 Feb 2024
CoAScore: Chain-of-Aspects Prompting for NLG Evaluation Peiyuan Gong Jiaxin Mao ELM 51 10 0 16 Dec 2023
Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs Xue-Yong Fu Md Tahmid Rahman Laskar Cheng-Hsiung Chen TN ShashiBhushan HILM ELM 68 18 0 01 Nov 2023
JudgeLM: Fine-tuned Large Language Models are Scalable Judges Lianghui Zhu Xinggang Wang Xinlong Wang ELM ALM 56 108 0 26 Oct 2023
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 224 572 0 03 May 2023
Large Language Models are Diverse Role-Players for Summarization Evaluation Ning Wu Ming Gong Linjun Shou Shining Liang Daxin Jiang 57 44 0 27 Mar 2023
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models Potsawee Manakul Adian Liusie Mark J. F. Gales HILM LRM 152 391 0 15 Mar 2023
Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations Jaehun Jung Lianhui Qin Sean Welleck Faeze Brahman Chandra Bhagavatula Ronan Le Bras Yejin Choi ReLM LRM 223 190 0 24 May 2022
Teaching language models to support answers with verified quotes Jacob Menick Maja Trebacz Vladimir Mikulik John Aslanides Francis Song ... Mia Glaese Susannah Young Lucy Campbell-Gillingham G. Irving Nat McAleese ELM RALM 240 257 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022