v1v2 (latest)

Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method

27 October 2023

Papers citing "Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method"

22 / 22 papers shown

Title
Exploring How LLMs Capture and Represent Domain-Specific Knowledge Mirian Hipolito Garcia Camille Couturier Daniel Madrigal Diaz Ankur Mallick Anastasios Kyrillidis Robert Sim Victor Rühle Saravan Rajmohan 66 1 0 23 Apr 2025
Large Language Models Could Be Rote Learners Yuyang Xu Renjun Hu Haochao Ying Jian Wu Xing Shi Wei Lin ELM 408 0 0 11 Apr 2025
Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion Denitsa Saynova Lovisa Hagström Moa Johansson Richard Johansson Marco Kuhlmann HILM 107 1 0 18 Oct 2024
Do Not Design, Learn: A Trainable Scoring Function for Uncertainty Estimation in Generative LLMs D. Yaldiz Yavuz Faruk Bakman Baturalp Buyukates Chenyang Tao Anil Ramakrishna Dimitrios Dimitriadis Jieyu Zhao Salman Avestimehr 113 8 0 17 Jun 2024
Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT Qihuang Zhong Liang Ding Juhua Liu Bo Du Dacheng Tao AI4MH 108 245 0 19 Feb 2023
Calibration Meets Explanation: A Simple and Effective Approach for Model Confidence Estimates Dongfang Li Baotian Hu Qingcai Chen 42 8 0 06 Nov 2022
Language Models (Mostly) Know What They Know Saurav Kadavath Tom Conerly Amanda Askell T. Henighan Dawn Drain ... Nicholas Joseph Benjamin Mann Sam McCandlish C. Olah Jared Kaplan ELM 122 830 0 11 Jul 2022
PaLM: Scaling Language Modeling with Pathways Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma Gaurav Mishra ... Kathy Meier-Hellstern Douglas Eck J. Dean Slav Petrov Noah Fiedel PILM LRM 524 6,293 0 05 Apr 2022
Training Verifiers to Solve Math Word Problems K. Cobbe V. Kosaraju Mohammad Bavarian Mark Chen Heewoo Jun ... Jerry Tworek Jacob Hilton Reiichiro Nakano Christopher Hesse John Schulman ReLM OffRL LRM 342 4,569 0 27 Oct 2021
Unsolved Problems in ML Safety Dan Hendrycks Nicholas Carlini John Schulman Jacob Steinhardt 242 293 0 28 Sep 2021
Knowledgeable or Educated Guess? Revisiting Language Models as Knowledge Bases Boxi Cao Hongyu Lin Xianpei Han Le Sun Lingyong Yan M. Liao Tong Xue Jin Xu 46 135 0 17 Jun 2021
Reducing conversational agents' overconfidence through linguistic calibration Sabrina J. Mielke Arthur Szlam Emily Dinan Y-Lan Boureau 276 169 0 30 Dec 2020
Recipes for building an open-domain chatbot Stephen Roller Emily Dinan Naman Goyal Da Ju Mary Williamson ... Myle Ott Kurt Shuster Eric Michael Smith Y-Lan Boureau Jason Weston ALM 123 1,014 0 28 Apr 2020
Calibration of Pre-trained Transformers Shrey Desai Greg Durrett UQLM 296 301 0 17 Mar 2020
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 470 20,317 0 23 Oct 2019
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter Victor Sanh Lysandre Debut Julien Chaumond Thomas Wolf 255 7,547 0 02 Oct 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 677 24,541 0 26 Jul 2019
Using Pre-Training Can Improve Model Robustness and Uncertainty Dan Hendrycks Kimin Lee Mantas Mazeika NoLa 76 726 0 28 Jan 2019
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge Alon Talmor Jonathan Herzig Nicholas Lourie Jonathan Berant RALM 144 1,747 0 02 Nov 2018
Regularizing Neural Networks by Penalizing Confident Output Distributions Gabriel Pereyra George Tucker J. Chorowski Lukasz Kaiser Geoffrey E. Hinton NoLa 165 1,141 0 23 Jan 2017
Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles Balaji Lakshminarayanan Alexander Pritzel Charles Blundell UQCV BDL 842 5,841 0 05 Dec 2016
A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks Dan Hendrycks Kevin Gimpel UQCV 168 3,472 0 07 Oct 2016