Hallucination Detection: Robustly Discerning Reliable Answers in Large
Language Models

Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models

4 July 2024

Yanghua Xiao

Papers citing "Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models"

18 / 18 papers shown

Title
The Order Effect: Investigating Prompt Sensitivity to Input Order in LLMs Bryan Guan Tanya Roosta Peyman Passban Mehdi Rezagholizadeh 97 0 0 06 Feb 2025
Visual Agents as Fast and Slow Thinkers Guangyan Sun Mingyu Jin Zhenting Wang Cheng-Long Wang Siqi Ma Qifan Wang Ying Nian Wu Ying Nian Wu Dongfang Liu Dongfang Liu LLMAG LRM 79 13 0 16 Aug 2024
CUPID: Improving Battle Fairness and Position Satisfaction in Online MOBA Games with a Re-matchmaking System Ge Fan Chaoyun Zhang Kai Wang Yingjie Li Junyang Chen Zenglin Xu 36 1 0 28 Jun 2024
Multicalibration for Confidence Scoring in LLMs Gianluca Detommaso Martín Bertrán Riccardo Fogliato Aaron Roth 32 12 0 06 Apr 2024
Hallucination Detection in Foundation Models for Decision-Making: A Flexible Definition and Review of the State of the Art Neeloy Chakraborty Melkior Ornik Katherine Driggs-Campbell LRM 57 9 0 25 Mar 2024
ProSwitch: Knowledge-Guided Instruction Tuning to Generate Professional and Non-Professional Styled Text Chang Zong Yuyan Chen Weiming Lu Jian Shao Yueting Zhuang 32 1 0 14 Mar 2024
Evaluating ChatGPT as a Recommender System: A Rigorous Approach Dario Di Palma Giovanni Maria Biancofiore Vito Walter Anelli Fedelucio Narducci Tommaso Di Noia E. Sciascio ALM 46 27 0 07 Sep 2023
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 229 572 0 03 May 2023
The Internal State of an LLM Knows When It's Lying A. Azaria Tom Michael Mitchell HILM 218 299 0 26 Apr 2023
Can we trust the evaluation on ChatGPT? Rachith Aiyappa Jisun An Haewoon Kwak Yong-Yeol Ahn ELM ALM LLMAG AI4MH LRM 120 87 0 22 Mar 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 333 11,953 0 04 Mar 2022
Entity-Based Knowledge Conflicts in Question Answering Shayne Longpre Kartik Perisetla Anthony Chen Nikhil Ramesh Chris DuBois Sameer Singh HILM 245 237 0 10 Sep 2021
The Factual Inconsistency Problem in Abstractive Text Summarization: A Survey Yi-Chong Huang Xiachong Feng Xiaocheng Feng Bing Qin HILM 136 105 0 30 Apr 2021
Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics Artidoro Pagnoni Vidhisha Balachandran Yulia Tsvetkov HILM 231 305 0 27 Apr 2021
A Sliding-Window Approach to Automatic Creation of Meeting Minutes Jia Jin Koay A. Roustai Xiaojin Dai Fei Liu 41 27 0 26 Apr 2021
A Token-level Reference-free Hallucination Detection Benchmark for Free-form Text Generation Tianyu Liu Yizhe Zhang Chris Brockett Yi Mao Zhifang Sui Weizhu Chen W. Dolan HILM 228 143 0 18 Apr 2021
Towards Faithful Neural Table-to-Text Generation with Content-Matching Constraints Zhenyi Wang Xiaoyang Wang Bang An Dong Yu Changyou Chen LMTD 168 84 0 03 May 2020
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 417 2,588 0 03 Sep 2019