Toxicity Detection for Free

29 May 2024

Papers citing "Toxicity Detection for Free"

5 / 5 papers shown

Title
JULI: Jailbreak Large Language Models by Self-Introspection Jesson Wang Zhanhao Hu David Wagner 2 0 0 17 May 2025
Bias in Large Language Models: Origin, Evaluation, and Mitigation Yufei Guo Muzhe Guo Juntao Su Zhou Yang Mengqiu Zhu Hongfei Li Mengyang Qiu Shuo Shuo Liu AILaw 33 10 0 16 Nov 2024
Identifying Knowledge Editing Types in Large Language Models Xiaopeng Li Shangwen Wang Shezheng Song Bin Ji Huijun Liu Shasha Li Jun Ma Jie Yu KELM 31 1 0 29 Sep 2024
Programming Refusal with Conditional Activation Steering Bruce W. Lee Inkit Padhi K. Ramamurthy Erik Miehling Pierre L. Dognin Manish Nagireddy Amit Dhurandhar LLMSV 105 14 0 06 Sep 2024
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 339 12,003 0 04 Mar 2022