A Formalism and Approach for Improving Robustness of Large Language Models Using Risk-Adjusted Confidence Scores

5 October 2023

Papers citing "A Formalism and Approach for Improving Robustness of Large Language Models Using Risk-Adjusted Confidence Scores"

31 / 31 papers shown

Title
Overthinking the Truth: Understanding how Language Models Process False Demonstrations Danny Halawi Jean-Stanislas Denain Jacob Steinhardt 63 59 0 18 Jul 2023
Do Large Language Models Know What They Don't Know? Zhangyue Yin Qiushi Sun Qipeng Guo Jiawen Wu Xipeng Qiu Xuanjing Huang ELM AI4MH 68 160 0 29 May 2023
Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting Miles Turpin Julian Michael Ethan Perez Sam Bowman ReLM LRM 66 422 0 07 May 2023
Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language Models Emilio Ferrara SILM 88 254 0 07 Apr 2023
Human Uncertainty in Concept-Based AI Systems Katherine M. Collins Matthew Barker M. Zarlenga Naveen Raman Umang Bhatt M. Jamnik Ilia Sucholutsky Adrian Weller Krishnamurthy Dvijotham 73 41 0 22 Mar 2023
On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective Jindong Wang Xixu Hu Wenxin Hou Hao Chen Runkai Zheng ... Weirong Ye Xiubo Geng Binxing Jiao Yue Zhang Xingxu Xie AI4MH 101 233 0 22 Feb 2023
Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation Lorenz Kuhn Y. Gal Sebastian Farquhar UQLM 179 288 0 19 Feb 2023
A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT Ce Zhou Qian Li Chen Li Jun Yu Yixin Liu ... P. Xie Caiming Xiong Jian Pei Philip S. Yu U. Chicago AI4CE 55 518 0 18 Feb 2023
Large Language Models Can Be Easily Distracted by Irrelevant Context Freda Shi Xinyun Chen Kanishka Misra Nathan Scales David Dohan Ed H. Chi Nathanael Scharli Denny Zhou ReLM RALM LRM 88 578 0 31 Jan 2023
Efficient Methods for Natural Language Processing: A Survey Marcos Vinícius Treviso Ji-Ung Lee Tianchu Ji Betty van Aken Qingqing Cao ... Emma Strubell Niranjan Balasubramanian Leon Derczynski Iryna Gurevych Roy Schwartz 74 114 0 31 Aug 2022
Language Models (Mostly) Know What They Know Saurav Kadavath Tom Conerly Amanda Askell T. Henighan Dawn Drain ... Nicholas Joseph Benjamin Mann Sam McCandlish C. Olah Jared Kaplan ELM 101 809 0 11 Jul 2022
Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and Benchmarks Jingyan Zhou Deng Jiawen Fei Mi Yitong Li Yasheng Wang Minlie Huang Xin Jiang Qun Liu Helen Meng 54 32 0 16 Feb 2022
Survey of Hallucination in Natural Language Generation Ziwei Ji Nayeon Lee Rita Frieske Tiezheng Yu D. Su ... Delong Chen Wenliang Dai Ho Shu Chan Andrea Madotto Pascale Fung HILM LRM 192 2,356 0 08 Feb 2022
Commonsense Knowledge Reasoning and Generation with Pre-trained Language Models: A Survey Prajjwal Bhargava Vincent Ng ReLM LRM 121 63 0 28 Jan 2022
The Trade-offs of Domain Adaptation for Neural Language Models David Grangier Dan Iter 49 21 0 21 Sep 2021
Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning Runxin Xu Fuli Luo Zhiyuan Zhang Chuanqi Tan Baobao Chang Songfang Huang Fei Huang LRM 170 186 0 13 Sep 2021
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering Zhengbao Jiang Jun Araki Haibo Ding Graham Neubig UQCV 58 432 0 02 Dec 2020
A Survey of Evaluation Metrics Used for NLG Systems Ananya B. Sai Akash Kumar Mohankumar Mitesh M. Khapra ELM 76 233 0 27 Aug 2020
The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization Dan Hendrycks Steven Basart Norman Mu Saurav Kadavath Frank Wang ... Samyak Parajuli Mike Guo D. Song Jacob Steinhardt Justin Gilmer OOD 312 1,727 0 29 Jun 2020
Selective Question Answering under Domain Shift Amita Kamath Robin Jia Percy Liang OOD 39 212 0 16 Jun 2020
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 702 41,736 0 28 May 2020
Calibrating Structured Output Predictors for Natural Language Processing Abhyuday N. Jagannatha Hong-ye Yu 58 28 0 09 Apr 2020
PIQA: Reasoning about Physical Commonsense in Natural Language Yonatan Bisk Rowan Zellers Ronan Le Bras Jianfeng Gao Yejin Choi OOD LRM 118 1,776 0 26 Nov 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.2K 12,129 0 27 Aug 2019
Universal Adversarial Triggers for Attacking and Analyzing NLP Eric Wallace Shi Feng Nikhil Kandpal Matt Gardner Sameer Singh AAML SILM 109 865 0 20 Aug 2019
Abductive Commonsense Reasoning Chandra Bhagavatula Ronan Le Bras Chaitanya Malaviya Keisuke Sakaguchi Ari Holtzman Hannah Rashkin Doug Downey Scott Yih Yejin Choi ReLM LRM 70 460 0 15 Aug 2019
HellaSwag: Can a Machine Really Finish Your Sentence? Rowan Zellers Ari Holtzman Yonatan Bisk Ali Farhadi Yejin Choi 156 2,446 0 19 May 2019
Confidence Modeling for Neural Semantic Parsing Li Dong Chris Quirk Mirella Lapata 51 84 0 11 May 2018
On Calibration of Modern Neural Networks Chuan Guo Geoff Pleiss Yu Sun Kilian Q. Weinberger UQCV 285 5,812 0 14 Jun 2017
Towards better decoding and language model integration in sequence to sequence models J. Chorowski Navdeep Jaitly 71 369 0 08 Dec 2016
A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks Dan Hendrycks Kevin Gimpel UQCV 147 3,441 0 07 Oct 2016