中文(支持中文的)大语言模型(LLM)汇总

各项能力评分

评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。

类别 大模型 分类能力 信息抽取能力 阅读理解能力 数据分析能力 综合能力
商用 gpt4 94 94 99.3 97 96.1
商用 chatgpt-3.5 98 88 95.3 93 93.6
商用 微软new-bing 95 83 94.0 100 93.0
商用 GLM4(new) 86 90 97.3 96 92.3
商用 文心4.0 88 89 94.7 94 91.4
商用 阿里qwen-max(new) 86 82 95.3 91.3 88.7
开源 Qwen-72B-Chat 89 80 92.7 87.3 87.3
开源 tigerbot-70b-chat-v2 97 84 80.0 85 86.5
商用 文心一言v2.2 90 87 88.0 81 86.5
开源 openbuddy-deepseek-67b(new) 86 89 84.7 85 86.2
商用 讯飞星火v3 87 82 88.0 86 85.8
开源 XVERSE-65B-Chat(new) 83 84 84.0 89 85.0
商用 谷歌bard 86 88 85.3 77 84.1
开源 tigerbot-70b-chat-v3 94 85 84.0 71 83.5
开源 openbuddy-llama2-70b-v10.1 86 84 86.7 76 83.2
开源 tigerbot-13b-chat-v4 85 82 80.0 85 83.0
商用 chatglm-turbo 86 75 90.0 81 83.0
开源 Yi-34B-Chat 88 82 84.7 77 82.9
开源 aquilachat2-34b 77 82 88.0 83 82.5
商用 商汤senseChat 82 85 82.7 78 81.9
商用 Baichuan2-53B 76 84 88.0 79 81.8
开源 BELLE-Llama2-13B-chat-0.4M 90 74 76.0 79 79.8
商用 字节跳动豆包 79 77 80.0 82 79.5
开源 qwen-14b-chat 84 72 84.7 77 79.4
开源 Baichuan2-13B-Chat 83 83 74.7 77 79.4
开源 Baichuan2-7B-Chat 88 76 83.3 69 79.1
商用 阿里通义千问 81 81 81.0 73 79.0
开源 belle-llama-13b-2m 82 75 80.7 77 78.7
开源 openbuddy-zephyr-7b(new) 82 83 74.0 72 77.8
开源 BlueLM-7B-Chat(new) 82 83 74.0 72 77.8
开源 openbuddy-llama-65b-v8 68 84 79.3 76 76.8
开源 xverse-13b-chat 86 72 81.3 67 76.6
商用 chatglm-std 84 71 76.0 73 76.0
商用 chatglm-pro 84 70 76.0 73 75.8
商用 讯飞星火v1.5 76 81 76.0 69 75.5
开源 openbuddy-mistral-7b-v13.1 79 72 73.3 76 75.1
商用 chatglm-130b-v1 82 76 72.7 68 74.7
开源 openbuddy-llama-30b-v7.1 82 74 81.3 60 74.3
商用 360智脑 86 71 74.0 66 74.3
开源 Llama-2-70b-chat 86 66 73.3 69 73.6
开源 Qwen-7B-Chat 89 72 74.0 59 73.5
商用 讯飞星火v2.0 72 75 79.3 65 72.8
开源 Baichuan-13B-Chat-v2 82 69 72.7 67 72.7
开源 chatglm3-6b 82 68 78.7 60 72.2
开源 tulu-30b 76 76 75.3 61 72.1
开源 belle-llama-13b-ext 74 65 76.7 69 71.2
开源 internlm-chat-20b 74 64 77.3 64 69.8
开源 Ziya-LLaMA-13B-v1.1 72 69 80.0 58 69.8
开源 Yi-6B-Chat 73 71 66.0 64.7 68.7
开源 ziya2-13b-chat 76 54 71.3 68 67.3
开源 Linly-Chinese-LLaMA2-13B 78 67 67.3 57 67.3
开源 chatglm2-6b 70 68 72.0 57 66.8
开源 Qwen-1_8B-Chat 73 66 75.3 51.3 66.4
商用 minimax 68 61 73.3 63 66.3
开源 vicuna-33b 82 65 63.3 54 66.1
开源 wizardlm-13b 68 52 72.0 48 60.0
开源 InternLM-Chat-7B 62 55 66.0 53 59.0
开源 AquilaChat-7B 70 51 56.0 55 58.0
开源 openbuddy-openllama-3b-v10 64 60 61.3 40.7 56.5

文章转载自:https://github.com/jeinlee1991/chinese-llm-benchmark

原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/zhongwendayuyinmoxingllmhuizong/.html

(0)
打赏 微信扫一扫 微信扫一扫
朋远方的头像朋远方
上一篇 2024年2月28日 下午3:16
下一篇 2024年2月28日 下午6:49

相关推荐

发表回复

登录后才能评论