Non-Linear Inference Time Intervention: Improving LLM Truthfulness

27 March 2024

Papers citing "Non-Linear Inference Time Intervention: Improving LLM Truthfulness"

5 / 5 papers shown

Title
Interpretable Risk Mitigation in LLM Agent Systems Jan Chojnacki LLMAG 17 0 0 15 May 2025
Risk-Aware Distributional Intervention Policies for Language Models Bao Nguyen Binh Nguyen Duy Nguyen V. Nguyen 32 1 0 28 Jan 2025
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models Potsawee Manakul Adian Liusie Mark J. F. Gales HILM LRM 152 396 0 15 Mar 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 363 12,003 0 04 Mar 2022
BBQ: A Hand-Built Bias Benchmark for Question Answering Alicia Parrish Angelica Chen Nikita Nangia Vishakh Padmakumar Jason Phang Jana Thompson Phu Mon Htut Sam Bowman 223 374 0 15 Oct 2021