CHBench: A Chinese Dataset for Evaluating Health in Large Language Models

CHBench: A Chinese Dataset for Evaluating Health in Large Language Models

24 February 2025

Papers citing "CHBench: A Chinese Dataset for Evaluating Health in Large Language Models"

18 / 18 papers shown

Title
ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models Han Zhang Hongfu Gao Qiang Hu Guanhua Chen L. Yang Bingyi Jing Hongxin Wei Bing Wang Haifeng Bai Lei Yang AILaw ELM 103 2 0 24 Oct 2024
COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning Yuelin Bai Xinrun Du Yiming Liang Yonggang Jin Ziqiang Liu ... Chenghua Lin Jie Fu Min Yang Shiwen Ni Ge Zhang ALM 50 34 0 26 Mar 2024
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models Lijun Li Bowen Dong Ruohui Wang Xuhao Hu Wangmeng Zuo Dahua Lin Yu Qiao Jing Shao ELM 37 95 0 07 Feb 2024
ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in Real-World User-AI Conversation Zi Lin Zihan Wang Yongqi Tong Yangkun Wang Yuxin Guo Yujia Wang Jingbo Shang AI4MH 30 99 0 26 Oct 2023
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs Yuxia Wang Haonan Li Xudong Han Preslav Nakov Timothy Baldwin 55 107 0 25 Aug 2023
Instruction Tuning for Large Language Models: A Survey Shengyu Zhang Linfeng Dong Xiaoya Li Sen Zhang Xiaofei Sun ... Jiwei Li Runyi Hu Tianwei Zhang Leilei Gan Guoyin Wang LM&MA 71 570 0 21 Aug 2023
CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility Guohai Xu Jiayi Liu Mingshi Yan Haotian Xu Jinghui Si ... Rong Zhang Ji Zhang Chao Peng Feiyan Huang Jingren Zhou ALM ELM 54 79 0 19 Jul 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 644 13,788 0 15 Mar 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 815 12,840 0 27 Feb 2023
SafeText: A Benchmark for Exploring Physical Safety in Language Models Sharon Levy Emily Allaway Melanie Subbiah Lydia B. Chilton D. Patton Kathleen McKeown William Yang Wang 71 42 0 18 Oct 2022
PaLM: Scaling Language Modeling with Pathways Aakanksha Chowdhery Sharan Narang Jacob Devlin Maarten Bosma Gaurav Mishra ... Kathy Meier-Hellstern Douglas Eck J. Dean Slav Petrov Noah Fiedel PILM LRM 335 6,132 0 05 Apr 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 694 12,525 0 04 Mar 2022
Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and Benchmarks Jingyan Zhou Deng Jiawen Fei Mi Yitong Li Yasheng Wang Minlie Huang Xin Jiang Qun Liu Helen Meng 54 31 0 16 Feb 2022
RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of Conversational Language Models Soumya Barikeri Anne Lauscher Ivan Vulić Goran Glavaš 76 180 0 07 Jun 2021
GLM: General Language Model Pretraining with Autoregressive Blank Infilling Zhengxiao Du Yujie Qian Xiao Liu Ming Ding J. Qiu Zhilin Yang Jie Tang BDL AI4CE 91 1,520 0 18 Mar 2021
HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection Binny Mathew Punyajoy Saha Seid Muhie Yimam Chris Biemann Pawan Goyal Animesh Mukherjee 98 565 0 18 Dec 2020
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models Samuel Gehman Suchin Gururangan Maarten Sap Yejin Choi Noah A. Smith 112 1,168 0 24 Sep 2020
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 500 41,106 0 28 May 2020