BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection

26 May 2020

Papers citing "BEEP! Korean Corpus of Online News Comments for Toxic Speech Detection"

34 / 34 papers shown

Title
A Multi-Labeled Dataset for Indonesian Discourse: Examining Toxicity, Polarization, and Demographics Information Lucky Susanto M. Wijanarko Prasetia Anugrah Pratama Zilu Tang Fariz Akyas Traci Hong Ika Idris Alham Fikri Aji Derry Wijaya 41 0 0 01 Mar 2025
U-GIFT: Uncertainty-Guided Firewall for Toxic Speech in Few-Shot Scenario Jiaxin Song Xinyu Wang Yihao Wang Yifan Tang Ru Zhang Jianyi Liu Gongshen Liu AAML 54 0 0 03 Jan 2025
CulturePark: Boosting Cross-cultural Understanding in Large Language Models Cheng-rong Li Damien Teney Linyi Yang Qingsong Wen Xing Xie Jindong Wang 51 4 0 24 May 2024
SGHateCheck: Functional Tests for Detecting Hate Speech in Low-Resource Languages of Singapore Ri Chi Ng Nirmalendu Prakash Ming Shan Hee K. T. W. Choo Roy Ka-wei Lee 43 4 0 03 May 2024
RTP-LX: Can LLMs Evaluate Toxicity in Multilingual Scenarios? Adrian de Wynter Ishaan Watts Nektar Ege Altıntoprak Tua Wongsangaroonsri Minghui Zhang ... Anna Vickers Stéphanie Visser Herdyan Widarmanto A. Zaikin Si-Qing Chen LM&MA 54 17 0 22 Apr 2024
Taxonomy and Analysis of Sensitive User Queries in Generative AI Search Hwiyeol Jo Taiwoo Park Nayoung Choi Changbong Kim Ohjoon Kwon ... Kyoungho Shin Sun Suk Lim Kyungmi Kim Jihye Lee Sun Kim 60 0 0 05 Apr 2024
Don't be a Fool: Pooling Strategies in Offensive Language Detection from User-Intended Adversarial Attacks Seunguk Yu Juhwan Choi Youngbin Kim AAML 21 0 0 20 Mar 2024
Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean Changsu Choi Yongbin Jeong Seoyoon Park Inho Won HyeonSeok Lim ... Yiseul Lee HyeJin Lee Younggyun Hahm Hansaem Kim Kyungtae Lim 37 11 0 16 Mar 2024
CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean Eunsu Kim Juyoung Suk Philhoon Oh Haneul Yoo James Thorne Alice Oh ELM 77 17 0 11 Mar 2024
KMMLU: Measuring Massive Multitask Language Understanding in Korean Guijin Son Hanwool Albert Lee Sungdong Kim Seungone Kim Niklas Muennighoff Taekyoon Choi Cheonbok Park Kang Min Yoo Stella Biderman ALM RALM ELM 60 38 0 18 Feb 2024
CultureLLM: Incorporating Cultural Differences into Large Language Models Cheng-rong Li Mengzhou Chen Jindong Wang Sunayana Sitaram Xing Xie VLM 56 18 0 09 Feb 2024
Automatic Construction of a Korean Toxic Instruction Dataset for Ethical Tuning of Large Language Models Sungjoo Byun Dongjun Jang Hyemi Jo Hyopil Shin 41 2 0 30 Nov 2023
Exploring Methods for Cross-lingual Text Style Transfer: The Case of Text Detoxification Daryna Dementieva Daniil Moskovskiy David Dale Alexander Panchenko 43 16 0 23 Nov 2023
Improving Korean NLP Tasks with Linguistically Informed Subword Tokenization and Sub-character Decomposition Tae-Hee Jeon Bongseok Yang ChangHwan Kim Yoonseob Lim 27 0 0 07 Nov 2023
K-HATERS: A Hate Speech Detection Corpus in Korean with Target-Specific Ratings Chaewon Park Soohwan Kim Kyubyong Park Kunwoo Park 35 4 0 24 Oct 2023
The Skipped Beat: A Study of Sociopragmatic Understanding in LLMs for 64 Languages Chiyu Zhang Khai Duy Doan Qisheng Liao Muhammad Abdul-Mageed 43 6 0 23 Oct 2023
KoSBi: A Dataset for Mitigating Social Bias Risks Towards Safer Large Language Model Application Hwaran Lee Seokhee Hong Joonsuk Park Takyoung Kim Gunhee Kim Jung-Woo Ha 40 29 0 28 May 2023
When Crowd Meets Persona: Creating a Large-Scale Open-Domain Persona Dialogue Corpus Won Ik Cho Y. Lee Seoyeon Bae Jihwan Kim S. Park Moosung Kim S. Hahn N. Kim 54 5 0 01 Apr 2023
SOLD: Sinhala Offensive Language Dataset Tharindu Ranasinghe Isuri Anuradha Damith Premasiri Kanishka Silva Hansi Hettiarachchi Lasitha Uyangodage Marcos Zampieri 46 8 0 01 Dec 2022
Language Generation Models Can Cause Harm: So What Can We Do About It? An Actionable Survey Sachin Kumar Vidhisha Balachandran Lucille Njoo Antonios Anastasopoulos Yulia Tsvetkov ELM 83 86 0 14 Oct 2022
DEPTWEET: A Typology for Social Media Texts to Detect Depression Severities Mohsinul Kabir Tasnim Ahmed Md. Bakhtiar Hasan Md Tahmid Rahman Laskar Tarun Kumar Joarder H. Mahmud Kamrul Hasan 19 46 0 10 Oct 2022
K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online News Comment Jean Lee Taejun Lim Hee-Youn Lee Bogeun Jo Yangsok Kim Heegeun Yoon S. Han 24 19 0 23 Aug 2022
KOLD: Korean Offensive Language Dataset Young-kuk Jeong Juhyun Oh Jaimeen Ahn Jongwon Lee Jihyung Mon Sungjoon Park Alice Oh 57 25 0 23 May 2022
Korean Online Hate Speech Dataset for Multilabel Classification: How Can Social Science Improve Dataset on Hate Speech? Taeyoung Kang Eunrang Kwon Junbum Lee Youngeun Nam Junmo Song JeongKyu Suh 21 8 0 07 Apr 2022
APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets Kichang Yang Wonjun Jang Won-Ik Cho 14 17 0 25 Feb 2022
Transformer-based Korean Pretrained Language Models: A Survey on Three Years of Progress Kichang Yang KELM VLM 34 11 0 25 Nov 2021
A Survey on Awesome Korean NLP Datasets Byunghyun Ban 49 8 0 17 Oct 2021
Paraphrasing via Ranking Many Candidates Joosung Lee 18 1 0 20 Jul 2021
A systematic review of Hate Speech automatic detection using Natural Language Processing Md Saroar Jahan Mourad Oussalah 37 9 0 22 May 2021
KLUE: Korean Language Understanding Evaluation Sungjoon Park Jihyung Moon Sungdong Kim Won Ik Cho Jiyoon Han ... Seonghyun Kim Lucy Park Alice Oh Jung-Woo Ha Kyunghyun Cho ELM VLM 29 192 0 20 May 2021
UIT-E10dot3 at SemEval-2021 Task 5: Toxic Spans Detection with Named Entity Recognition and Question-Answering Approaches Phu Gia Hoang Luan Thanh Nguyen Kiet Van Nguyen 16 3 0 15 Apr 2021
Open Korean Corpora: A Practical Report Won Ik Cho Sangwhan Moon YoungSook Song 41 8 0 31 Dec 2020
Enhancing deep neural networks with morphological information Matej Klemen Luka Krsnik Marko Robnik-Šikonja 39 12 0 24 Nov 2020
Sequential Targeting: an incremental learning approach for data imbalance in text classification Joel Jang Yoonjeon Kim Kyoungho Choi Sungho Suh 19 26 0 20 Nov 2020