Simple Text Detoxification by Identifying a Linear Toxic Subspace in Language Model Embeddings

15 December 2021

Papers citing "Simple Text Detoxification by Identifying a Linear Toxic Subspace in Language Model Embeddings"

1 / 1 papers shown

Title
Weakly Supervised Detection of Hallucinations in LLM Activations Miriam Rateike C. Cintas John Wamburu Tanya Akumu Skyler Speakman 28 11 0 05 Dec 2023