v1v2 (latest)

RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models

24 September 2020

Yejin Choi

Papers citing "RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models"

50 / 814 papers shown

Title
Challenges of Large Language Models for Mental Health Counseling N. C. Chung George C. Dyer L. Brocki LM&MA AI4MH 123 16 0 23 Nov 2023
Compositional Capabilities of Autoregressive Transformers: A Study on Synthetic, Interpretable Tasks Rahul Ramesh Ekdeep Singh Lubana Mikail Khona Robert P. Dick Hidenori Tanaka CoGe 87 12 0 21 Nov 2023
Causal ATE Mitigates Unintended Bias in Controlled Text Generation Rahul Madhavan Kahini Wadhawan 106 0 0 19 Nov 2023
Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models Zhaowei Zhu Jialu Wang Hao Cheng Yang Liu 99 20 0 19 Nov 2023
Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking Nan Xu Fei Wang Ben Zhou Bangzheng Li Chaowei Xiao Muhao Chen 115 60 0 16 Nov 2023
JAB: Joint Adversarial Prompting and Belief Augmentation Ninareh Mehrabi Palash Goyal Anil Ramakrishna Jwala Dhamala Shalini Ghosh Richard Zemel Kai-Wei Chang Aram Galstyan Rahul Gupta AAML 65 8 0 16 Nov 2023
How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities Lingbo Mo Boshi Wang Muhao Chen Huan Sun 82 29 0 15 Nov 2023
Towards Publicly Accountable Frontier LLMs: Building an External Scrutiny Ecosystem under the ASPIRE Framework Markus Anderljung Everett Thornton Smith Joe O'Brien Lisa Soder Ben Bucknall Emma Bluemke Jonas Schuett Robert F. Trager Lacey Strahm Rumman Chowdhury 113 18 0 15 Nov 2023
AART: AI-Assisted Red-Teaming with Diverse Data Generation for New LLM-powered Applications Bhaktipriya Radharapu Kevin Robinson Lora Aroyo Preethi Lahoti 109 42 0 14 Nov 2023
SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in Large Language Models Bertie Vidgen Nino Scherrer Hannah Rose Kirk Rebecca Qian Anand Kannappan Scott A. Hale Paul Röttger ALM ELM 118 29 0 14 Nov 2023
Fair Abstractive Summarization of Diverse Perspectives Yusen Zhang Nan Zhang Yixin Liu Alexander R. Fabbri Junru Liu ... Caiming Xiong Jieyu Zhao Dragomir R. Radev Kathleen McKeown Rui Zhang 82 11 0 14 Nov 2023
Understanding Users' Dissatisfaction with ChatGPT Responses: Types, Resolving Tactics, and the Effect of Knowledge Level Yoonsu Kim Jueon Lee Seoyoung Kim Jaehyuk Park Juho Kim 130 45 0 13 Nov 2023
Controlled Text Generation for Black-box Language Models via Score-based Progressive Editor Sangwon Yu Changmin Lee Hojin Lee Sungroh Yoon 141 0 0 13 Nov 2023
Flames: Benchmarking Value Alignment of LLMs in Chinese Kexin Huang Xiangyang Liu Qianyu Guo Tianxiang Sun Jiawei Sun ... Yixu Wang Yan Teng Xipeng Qiu Yingchun Wang Dahua Lin ALM 192 17 0 12 Nov 2023
In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering Sheng Liu Haotian Ye Lei Xing James Y. Zou 144 117 0 11 Nov 2023
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval Nandan Thakur Jianmo Ni Gustavo Hernández Ábrego John Wieting Jimmy J. Lin Daniel Cer RALM 115 13 0 10 Nov 2023
Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications Fengqing Jiang Zhangchen Xu Luyao Niu Wei Ping Jinyuan Jia Bo Li Radha Poovendran AAML 113 36 0 07 Nov 2023
Unveiling Safety Vulnerabilities of Large Language Models George Kour Marcel Zalmanovici Naama Zwerdling Esther Goldbraich Ora Nova Fandina Ateret Anaby-Tavor Orna Raz E. Farchi AAML 88 18 0 07 Nov 2023
FinGPT: Large Generative Models for a Small Language Risto Luukkonen Ville Komulainen Jouni Luoma Anni Eskelinen Jenna Kanerva ... Mikko Merioksa Jyrki Heinonen Aija Vahtola Samuel Antao S. Pyysalo LM&MA 62 49 0 03 Nov 2023
Successor Features for Efficient Multisubject Controlled Text Generation Mengyao Cao Mehdi Fatemi Jackie Chi Kit Cheung Samira Shabanian BDL 89 0 0 03 Nov 2023
Style Locality for Controllable Generation with kNN Language Models Gilles Nawezi Lucie Flek Charles F Welch RALM 57 0 0 01 Nov 2023
Transformation vs Tradition: Artificial General Intelligence (AGI) for Arts and Humanities Zheng Liu Yiwei Li Qian Cao Junwen Chen Tianze Yang ... John Gibbs Khaled Rasheed Ninghao Liu Gengchen Mai Tianming Liu AI4CE 129 10 0 30 Oct 2023
Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery Katie Z Luo Zhenzhen Liu Xiangyu Chen Yurong You Sagie Benaim Cheng Perng Phoo Mark E. Campbell Wen Sun B. Hariharan Kilian Q. Weinberger OffRL 94 11 0 29 Oct 2023
N-Critics: Self-Refinement of Large Language Models with Ensemble of Critics Sajad Mousavi Ricardo Luna Gutierrez Desik Rengarajan Vineet Gundecha Ashwin Ramesh Babu Avisek Naug Antonio Guillen-Perez Soumyendu Sarkar LRM HILM KELM 50 7 0 28 Oct 2023
NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination for each Benchmark Oscar Sainz Jon Ander Campos Iker García-Ferrero Julen Etxaniz Oier López de Lacalle Eneko Agirre 80 185 0 27 Oct 2023
Unpacking the Ethical Value Alignment in Big Models Xiaoyuan Yi Jing Yao Xiting Wang Xing Xie 82 13 0 26 Oct 2023
ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in Real-World User-AI Conversation Zi Lin Zihan Wang Yongqi Tong Yangkun Wang Yuxin Guo Yujia Wang Jingbo Shang AI4MH 100 114 0 26 Oct 2023
Improving Diversity of Demographic Representation in Large Language Models via Collective-Critiques and Self-Voting Preethi Lahoti Nicholas Blumm Xiao Ma Raghavendra Kotikalapudi Sahitya Potluri ... Hansa Srinivasan Ben Packer Ahmad Beirami Alex Beutel Jilin Chen 114 32 0 25 Oct 2023
Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition Sander Schulhoff Jeremy Pinto Anaum Khan Louis-Franccois Bouchard Chenglei Si Svetlina Anati Valen Tagliabue Anson Liu Kost Christopher Carnahan Jordan L. Boyd-Graber SILM 112 46 0 24 Oct 2023
Do Stochastic Parrots have Feelings Too? Improving Neural Detection of Synthetic Text via Emotion Recognition Alan Cowap Yvette Graham Jennifer Foster DeLMO 63 0 0 24 Oct 2023
Self-Guard: Empower the LLM to Safeguard Itself Zezhong Wang Fangkai Yang Lu Wang Pu Zhao Hongru Wang Liang Chen Qingwei Lin Kam-Fai Wong 166 35 0 24 Oct 2023
Air-Decoding: Attribute Distribution Reconstruction for Decoding-Time Controllable Text Generation Tianqi Zhong Quan Wang Jingxuan Han Yongdong Zhang Zhendong Mao 99 9 0 23 Oct 2023
MoPe: Model Perturbation-based Privacy Attacks on Language Models Marvin Li Jason Wang Jeffrey G. Wang Seth Neel AAML 105 20 0 22 Oct 2023
LUNA: A Model-Based Universal Analysis Framework for Large Language Models Da Song Xuan Xie Jiayang Song Derui Zhu Yuheng Huang Felix Juefei Xu Lei Ma ALM 111 6 0 22 Oct 2023
Values, Ethics, Morals? On the Use of Moral Concepts in NLP Research Karina Vida Judith Simon Anne Lauscher 78 18 0 21 Oct 2023
Teaching Language Models to Self-Improve through Interactive Demonstrations Xiao Yu Baolin Peng Michel Galley Jianfeng Gao Zhou Yu LRM ReLM 104 22 0 20 Oct 2023
Steering Large Language Models for Machine Translation with Finetuning and In-Context Learning Duarte M. Alves Nuno M. Guerreiro Joao Alves José P. Pombal Ricardo Rei José G. C. de Souza Pierre Colombo André F.T. Martins 99 52 0 20 Oct 2023
An LLM can Fool Itself: A Prompt-Based Adversarial Attack Xilie Xu Keyi Kong Ning Liu Li-zhen Cui Di Wang Jingfeng Zhang Mohan Kankanhalli AAML SILM 132 88 0 20 Oct 2023
Model Merging by Uncertainty-Based Gradient Matching Nico Daheim Thomas Möllenhoff Edoardo Ponti Iryna Gurevych Mohammad Emtiyaz Khan MoMe FedML 112 53 0 19 Oct 2023
Safe RLHF: Safe Reinforcement Learning from Human Feedback Josef Dai Xuehai Pan Ruiyang Sun Jiaming Ji Xinbo Xu Mickel Liu Yizhou Wang Yaodong Yang 144 364 0 19 Oct 2023
Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework Imdad Ullah Najm Hassan S. Gill Basem Suleiman T. Ahanger Zawar Shah Junaid Qadir S. Kanhere 97 17 0 19 Oct 2023
Attack Prompt Generation for Red Teaming and Defending Large Language Models Boyi Deng Wenjie Wang Fuli Feng Yang Deng Qifan Wang Xiangnan He AAML 76 57 0 19 Oct 2023
Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning Shitong Duan Xiaoyuan Yi Peng Zhang Tun Lu Xing Xie Ning Gu 90 12 0 17 Oct 2023
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks Erfan Shayegani Md Abdullah Al Mamun Yu Fu Pedram Zaree Yue Dong Nael B. Abu-Ghazaleh AAML 244 164 0 16 Oct 2023
Privacy in Large Language Models: Attacks, Defenses and Future Directions Haoran Li Yulin Chen Jinglong Luo Yan Kang Xiaojin Zhang Qi Hu Chunkit Chan Yangqiu Song PILM 118 45 0 16 Oct 2023
Prompt Packer: Deceiving LLMs through Compositional Instruction with Hidden Attacks Shuyu Jiang Xingshu Chen Rui Tang 93 25 0 16 Oct 2023
How Good is ChatGPT in Giving Advice on Your Visualization Design? Nam Wook Kim Grace Myers Benjamin Bach 85 21 0 14 Oct 2023
Self-Detoxifying Language Models via Toxification Reversal Chak Tou Leong Yi Cheng Jiashuo Wang Jian Wang Wenjie Li MU 52 38 0 14 Oct 2023
Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model H. Deng Colin Raffel 134 46 0 14 Oct 2023
The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values Hannah Rose Kirk Andrew M. Bean Bertie Vidgen Paul Röttger Scott A. Hale ALM 117 50 0 11 Oct 2023