ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large
Language Models

ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large Language Models

28 August 2023

Kang Liu

Jun Zhao

Papers citing "ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large Language Models"

12 / 12 papers shown

Title
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 312 4,253 0 09 Jun 2023
Knowledge of Knowledge: Exploring Known-Unknowns Uncertainty with Large Language Models Alfonso Amayuelas Kyle Wong Liangming Pan Wenhu Chen Wenjie Wang 65 28 0 23 May 2023
On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective Jindong Wang Xixu Hu Wenxin Hou Hao Chen Runkai Zheng ... Weirong Ye Xiubo Geng Binxing Jiao Yue Zhang Xingxu Xie AI4MH 101 233 0 22 Feb 2023
TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities Zhe Zhao Yudong Li Cheng-An Hou Jing-xin Zhao Rong Tian ... Xingwu Sun Zhanhui Kang Xiaoyong Du Linlin Shen Kimmo Yan VLM 67 24 0 13 Dec 2022
YACLC: A Chinese Learner Corpus with Multidimensional Annotation Yingying Wang Cunliang Kong Liner Yang Yijun Wang Xiaorong Lu ... Shan He Zhenghao Liu Yuxiang Chen Erhong Yang Maosong Sun 40 16 0 30 Dec 2021
CCPM: A Chinese Classical Poetry Matching Dataset Wenhao Li Fanchao Qi Maosong Sun Xiaoyuan Yi Jiarui Zhang 26 11 0 03 Jun 2021
GLM: General Language Model Pretraining with Autoregressive Blank Infilling Zhengxiao Du Yujie Qian Xiao Liu Ming Ding J. Qiu Zhilin Yang Jie Tang BDL AI4CE 109 1,535 0 18 Mar 2021
OCNLI: Original Chinese Natural Language Inference Hai Hu Kyle Richardson Liang Xu Lu Li Sandra Kübler L. Moss 71 118 0 12 Oct 2020
CLUE: A Chinese Language Understanding Evaluation Benchmark Liang Xu Hai Hu Xuanwei Zhang Lu Li Chenjie Cao ... Cong Yue Xinrui Zhang Zhen-Yi Yang Kyle Richardson Zhenzhong Lan ELM 82 383 0 13 Apr 2020
ChID: A Large-scale Chinese IDiom Dataset for Cloze Test Chujie Zheng Minlie Huang Aixin Sun 59 87 0 04 Jun 2019
SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems Alex Jinpeng Wang Yada Pruksachatkun Nikita Nangia Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 242 2,307 0 02 May 2019
Generalizing from a Few Examples: A Survey on Few-Shot Learning Yaqing Wang Quanming Yao James T. Kwok L. Ni 83 1,809 0 10 Apr 2019