TruthfulQA: Measuring How Models Mimic Human Falsehoods

8 September 2021

Papers citing "TruthfulQA: Measuring How Models Mimic Human Falsehoods"

50 / 337 papers shown

Title
AlpaCare:Instruction-tuned Large Language Models for Medical Application Xinlu Zhang Chenxin Tian Xianjun Yang Lichang Chen Zekun Li Linda R. Petzold LM&MA 32 58 0 23 Oct 2023
Right, No Matter Why: AI Fact-checking and AI Authority in Health-related Inquiry Settings Elena Sergeeva Anastasia Sergeeva Huiyun Tang Kerstin Bongard-Blanchy Peter Szolovits 27 1 0 22 Oct 2023
Interpreting Indirect Answers to Yes-No Questions in Multiple Languages Zijie Wang Md Mosharaf Hossain Shivam Mathur Terry Cruz Melo Kadir Bulut Ozler ... Jacob Quintero MohammadHossein Rezaei Shreya Nupur Shakya Md Nayem Uddin Eduardo Blanco 35 1 0 20 Oct 2023
Towards Understanding Sycophancy in Language Models Mrinank Sharma Meg Tong Tomasz Korbak David Duvenaud Amanda Askell ... Oliver Rausch Nicholas Schiefer Da Yan Miranda Zhang Ethan Perez 213 192 0 20 Oct 2023
Instruction Tuning with Human Curriculum Bruce W. Lee Hyunsoo Cho Kang Min Yoo 45 3 0 14 Oct 2023
QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources Zhikai Li Xiaoxuan Liu Banghua Zhu Zhen Dong Qingyi Gu Kurt Keutzer MQ 32 7 0 11 Oct 2023
Confronting Reward Model Overoptimization with Constrained RLHF Ted Moskovitz Aaditya K. Singh DJ Strouse T. Sandholm Ruslan Salakhutdinov Anca D. Dragan Stephen Marcus McAleer 34 47 0 06 Oct 2023
Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints Chaoqi Wang Yibo Jiang Yuguang Yang Han Liu Yuxin Chen 39 82 0 28 Sep 2023
Foundation Metrics for Evaluating Effectiveness of Healthcare Conversations Powered by Generative AI Mahyar Abbasian Elahe Khatibi Iman Azimi David Oniani Zahra Shakeri Hossein Abad ... Bryant Lin Olivier Gevaert Li-Jia Li Ramesh C. Jain Amir M. Rahmani LM&MA ELM AI4MH 40 66 0 21 Sep 2023
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model Nolan Dey Daria Soboleva Faisal Al-Khateeb Bowen Yang Ribhu Pathria ... Robert Myers Jacob Robert Steeves Natalia Vassilieva Marvin Tom Joel Hestness MoE 24 14 0 20 Sep 2023
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics Haoqin Tu Bingchen Zhao Chen Wei Cihang Xie MLLM 39 14 0 13 Sep 2023
Cognitive Mirage: A Review of Hallucinations in Large Language Models Hongbin Ye Tong Liu Aijia Zhang Wei Hua Weiqiang Jia HILM 48 76 0 13 Sep 2023
FLM-101B: An Open LLM and How to Train It with $100K Budget$ Xiang Li Yiqun Yao Xin Jiang Xuezhi Fang Xuying Meng ... LI DU Bowen Qin Zheng-Wei Zhang Aixin Sun Yequan Wang 60 21 0 07 Sep 2023
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models Yue Zhang Yafu Li Leyang Cui Deng Cai Lemao Liu ... Longyue Wang A. Luu Wei Bi Freda Shi Shuming Shi RALM LRM HILM 46 520 0 03 Sep 2023
Spoken Language Intelligence of Large Language Models for Language Learning Linkai Peng Baorian Nuchged Yingming Gao ELM 62 4 0 28 Aug 2023
Situated Natural Language Explanations Zining Zhu Hao Jiang Jingfeng Yang Sreyashi Nag Chao Zhang Jie Huang Yifan Gao Frank Rudzicz Bing Yin LRM 44 1 0 27 Aug 2023
Semantic Consistency for Assuring Reliability of Large Language Models Harsh Raj Vipul Gupta Domenic Rosati S. Majumdar HILM 110 14 0 17 Aug 2023
Separate the Wheat from the Chaff: Model Deficiency Unlearning via Parameter-Efficient Module Operation Xinshuo Hu Dongfang Li Baotian Hu Zihao Zheng Zhenyu Liu M. Zhang KELM MU 33 26 0 16 Aug 2023
Scaling Sentence Embeddings with Large Language Models Ting Jiang Shaohan Huang Zhongzhi Luan Deqing Wang Fuzhen Zhuang LRM 42 40 0 31 Jul 2023
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension Bohao Li Rui Wang Guangzhi Wang Yuying Ge Yixiao Ge Ying Shan MLLM ELM 32 502 0 30 Jul 2023
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback Viet Dac Lai Chien Van Nguyen Nghia Trung Ngo Thuat Nguyen Franck Dernoncourt Ryan A. Rossi Thien Huu Nguyen ALM 42 130 0 29 Jul 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 108 11,007 0 18 Jul 2023
RecallM: An Adaptable Memory Mechanism with Temporal Understanding for Large Language Models Brandon Kynoch Hugo Latapie Dwane van der Sluis CLL LLMAG KELM 25 2 0 06 Jul 2023
Evade ChatGPT Detectors via A Single Space Shuyang Cai Wanyun Cui DeLMO 38 15 0 05 Jul 2023
Personality Traits in Large Language Models Gregory Serapio-García Mustafa Safdari Clément Crepy Luning Sun Stephen Fitz P. Romero Marwa Abdulhai Aleksandra Faust Maja J. Matarić LM&MA LLMAG 58 119 0 01 Jul 2023
On the Exploitability of Instruction Tuning Manli Shu Jiong Wang Chen Zhu Jonas Geiping Chaowei Xiao Tom Goldstein SILM 33 91 0 28 Jun 2023
Domain-specific ChatBots for Science using Embeddings Kevin G. Yager 24 8 0 15 Jun 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric P. Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 45 3,816 0 09 Jun 2023
Applying Standards to Advance Upstream & Downstream Ethics in Large Language Models Jose Berengueres Marybeth Sandell 27 0 0 06 Jun 2023
AI Transparency in the Age of LLMs: A Human-Centered Research Roadmap Q. V. Liao J. Vaughan 38 158 0 02 Jun 2023
Beyond Positive Scaling: How Negation Impacts Scaling Trends of Language Models Yuhui Zhang Michihiro Yasunaga Zhengping Zhou Jeff Z. HaoChen James Zou Percy Liang Serena Yeung 47 7 0 27 May 2023
Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback Katherine Tian E. Mitchell Allan Zhou Archit Sharma Rafael Rafailov Huaxiu Yao Chelsea Finn Christopher D. Manning 54 284 0 24 May 2023
In-Context Impersonation Reveals Large Language Models' Strengths and Biases Leonard Salewski Stephan Alaniz Isabel Rio-Torto Eric Schulz Zeynep Akata 44 149 0 24 May 2023
Emergent inabilities? Inverse scaling over the course of pretraining J. Michaelov Benjamin Bergen LRM ReLM 22 3 0 24 May 2023
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations Ning Ding Yulin Chen Bokai Xu Yujia Qin Zhi Zheng Shengding Hu Zhiyuan Liu Maosong Sun Bowen Zhou ALM 45 485 0 23 May 2023
Enhancing Large Language Models Against Inductive Instructions with Dual-critique Prompting Rui Wang Hongru Wang Fei Mi Yi Chen Boyang Xue Kam-Fai Wong Rui-Lan Xu 31 13 0 23 May 2023
Should We Attend More or Less? Modulating Attention for Fairness A. Zayed Gonçalo Mordido Samira Shabanian Sarath Chandar 37 10 0 22 May 2023
Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study Yuan Sui Mengyu Zhou Mingjie Zhou Shi Han Dongmei Zhang LMTD 21 71 0 22 May 2023
Machine-Made Media: Monitoring the Mobilization of Machine-Generated Articles on Misinformation and Mainstream News Websites Hans W. A. Hanley Zakir Durumeric DeLMO 23 29 0 16 May 2023
Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark Alexander Pan Chan Jun Shern Andy Zou Nathaniel Li Steven Basart Thomas Woodside Jonathan Ng Hanlin Zhang Scott Emmons Dan Hendrycks 26 126 0 06 Apr 2023
Assessing Language Model Deployment with Risk Cards Leon Derczynski Hannah Rose Kirk Vidhisha Balachandran Sachin Kumar Yulia Tsvetkov M. Leiser Saif Mohammad 28 42 0 31 Mar 2023
Training Language Models with Language Feedback at Scale Jérémy Scheurer Jon Ander Campos Tomasz Korbak Jun Shern Chan Angelica Chen Kyunghyun Cho Ethan Perez ALM 39 103 0 28 Mar 2023
Unifying Grokking and Double Descent Peter W. Battaglia David Raposo Kelsey 37 31 0 10 Mar 2023
A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT Yihan Cao Siyu Li Yixin Liu Zhiling Yan Yutong Dai Philip S. Yu Lichao Sun 29 507 0 07 Mar 2023
CoTEVer: Chain of Thought Prompting Annotation Toolkit for Explanation Verification Seungone Kim Se June Joo Yul Jang Hyungjoo Chae Jinyoung Yeo LRM 22 12 0 07 Mar 2023
Talking Abortion (Mis)information with ChatGPT on TikTok Filipo Sharevski J. Loop Peter Jachim Amy Devine Emma Pieroni 37 5 0 23 Feb 2023
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection Kai Greshake Sahar Abdelnabi Shailesh Mishra C. Endres Thorsten Holz Mario Fritz SILM 49 436 0 23 Feb 2023
Bounding the Capabilities of Large Language Models in Open Text Generation with Prompt Constraints Albert Lu Hongxin Zhang Yanzhe Zhang Xuezhi Wang Diyi Yang LRM 32 28 0 17 Feb 2023
Auditing large language models: a three-layered approach Jakob Mokander Jonas Schuett Hannah Rose Kirk Luciano Floridi AILaw MLAU 48 194 0 16 Feb 2023
Truth Machines: Synthesizing Veracity in AI Language Models Luke Munn Liam Magee Vanicka Arora SyDa HILM 23 28 0 28 Jan 2023