Benchmarking LLMs via Uncertainty Quantification

Benchmarking LLMs via Uncertainty Quantification

23 January 2024

Papers citing "Benchmarking LLMs via Uncertainty Quantification"

14 / 14 papers shown

Title
Bridging AI and Carbon Capture: A Dataset for LLMs in Ionic Liquids and CBE Research Gaurab Sarkar Sougata Saha 30 0 0 11 May 2025
Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding Trilok Padhi R. Kaur Adam D. Cobb Manoj Acharya Anirban Roy Colin Samplawski Brian Matejek Alexander M. Berenbeim Nathaniel D. Bastian Susmit Jha 28 0 0 30 Apr 2025
Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review Toghrul Abbasli Kentaroh Toyoda Yuan Wang Leon Witt Muhammad Asif Ali Yukai Miao Dan Li Qingsong Wei UQCV 92 0 0 25 Apr 2025
Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction Yuanchang Ye Weiyan Wen VLM 63 0 0 24 Apr 2025
aiXamine: Simplified LLM Safety and Security Fatih Deniz Dorde Popovic Yazan Boshmaf Euisuh Jeong M. Ahmad Sanjay Chawla Issa M. Khalil ELM 80 0 0 21 Apr 2025
Probabilistic Stability Guarantees for Feature Attributions Helen Jin Anton Xue Weiqiu You Surbhi Goel Eric Wong 27 0 0 18 Apr 2025
Large Language Model Confidence Estimation via Black-Box Access Tejaswini Pedapati Amit Dhurandhar Soumya Ghosh Soham Dan P. Sattigeri 89 3 0 21 Feb 2025
Do LLMs estimate uncertainty well in instruction-following? Juyeon Heo Miao Xiong Christina Heinze-Deml Jaya Narain ELM 55 3 0 18 Oct 2024
Conformal Prediction: A Data Perspective Xiaofan Zhou Baiting Chen Yu Gui Lu Cheng 103 3 0 09 Oct 2024
MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty Yongjin Yang Haneul Yoo Hwaran Lee 65 1 0 13 Aug 2024
Conformal Alignment: Knowing When to Trust Foundation Models with Guarantees Yu Gui Ying Jin Zhimei Ren MedIm 38 18 0 16 May 2024
PRobELM: Plausibility Ranking Evaluation for Language Models Moy Yuan Chenxi Whitehouse Eric Chamoun Rami Aly Andreas Vlachos 91 4 0 04 Apr 2024
Enhancing Conversational Search: Large Language Model-Aided Informative Query Rewriting Fanghua Ye Meng Fang Shenghui Li Emine Yilmaz KELM 54 45 0 15 Oct 2023
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond Jingfeng Yang Hongye Jin Ruixiang Tang Xiaotian Han Qizhang Feng Haoming Jiang Bing Yin Xia Hu LM&MA 137 626 0 26 Apr 2023