各项能力评分
评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。
类别 | 大模型 | 分类能力 | 信息抽取能力 | 阅读理解能力 | 数据分析能力 | 综合能力 |
---|---|---|---|---|---|---|
商用 | gpt4 | 94 | 94 | 99.3 | 97 | 96.1 |
商用 | chatgpt-3.5 | 98 | 88 | 95.3 | 93 | 93.6 |
商用 | 微软new-bing | 95 | 83 | 94.0 | 100 | 93.0 |
商用 | GLM4(new) | 86 | 90 | 97.3 | 96 | 92.3 |
商用 | 文心4.0 | 88 | 89 | 94.7 | 94 | 91.4 |
商用 | 阿里qwen-max(new) | 86 | 82 | 95.3 | 91.3 | 88.7 |
开源 | Qwen-72B-Chat | 89 | 80 | 92.7 | 87.3 | 87.3 |
开源 | tigerbot-70b-chat-v2 | 97 | 84 | 80.0 | 85 | 86.5 |
商用 | 文心一言v2.2 | 90 | 87 | 88.0 | 81 | 86.5 |
开源 | openbuddy-deepseek-67b(new) | 86 | 89 | 84.7 | 85 | 86.2 |
商用 | 讯飞星火v3 | 87 | 82 | 88.0 | 86 | 85.8 |
开源 | XVERSE-65B-Chat(new) | 83 | 84 | 84.0 | 89 | 85.0 |
商用 | 谷歌bard | 86 | 88 | 85.3 | 77 | 84.1 |
开源 | tigerbot-70b-chat-v3 | 94 | 85 | 84.0 | 71 | 83.5 |
开源 | openbuddy-llama2-70b-v10.1 | 86 | 84 | 86.7 | 76 | 83.2 |
开源 | tigerbot-13b-chat-v4 | 85 | 82 | 80.0 | 85 | 83.0 |
商用 | chatglm-turbo | 86 | 75 | 90.0 | 81 | 83.0 |
开源 | Yi-34B-Chat | 88 | 82 | 84.7 | 77 | 82.9 |
开源 | aquilachat2-34b | 77 | 82 | 88.0 | 83 | 82.5 |
商用 | 商汤senseChat | 82 | 85 | 82.7 | 78 | 81.9 |
商用 | Baichuan2-53B | 76 | 84 | 88.0 | 79 | 81.8 |
开源 | BELLE-Llama2-13B-chat-0.4M | 90 | 74 | 76.0 | 79 | 79.8 |
商用 | 字节跳动豆包 | 79 | 77 | 80.0 | 82 | 79.5 |
开源 | qwen-14b-chat | 84 | 72 | 84.7 | 77 | 79.4 |
开源 | Baichuan2-13B-Chat | 83 | 83 | 74.7 | 77 | 79.4 |
开源 | Baichuan2-7B-Chat | 88 | 76 | 83.3 | 69 | 79.1 |
商用 | 阿里通义千问 | 81 | 81 | 81.0 | 73 | 79.0 |
开源 | belle-llama-13b-2m | 82 | 75 | 80.7 | 77 | 78.7 |
开源 | openbuddy-zephyr-7b(new) | 82 | 83 | 74.0 | 72 | 77.8 |
开源 | BlueLM-7B-Chat(new) | 82 | 83 | 74.0 | 72 | 77.8 |
开源 | openbuddy-llama-65b-v8 | 68 | 84 | 79.3 | 76 | 76.8 |
开源 | xverse-13b-chat | 86 | 72 | 81.3 | 67 | 76.6 |
商用 | chatglm-std | 84 | 71 | 76.0 | 73 | 76.0 |
商用 | chatglm-pro | 84 | 70 | 76.0 | 73 | 75.8 |
商用 | 讯飞星火v1.5 | 76 | 81 | 76.0 | 69 | 75.5 |
开源 | openbuddy-mistral-7b-v13.1 | 79 | 72 | 73.3 | 76 | 75.1 |
商用 | chatglm-130b-v1 | 82 | 76 | 72.7 | 68 | 74.7 |
开源 | openbuddy-llama-30b-v7.1 | 82 | 74 | 81.3 | 60 | 74.3 |
商用 | 360智脑 | 86 | 71 | 74.0 | 66 | 74.3 |
开源 | Llama-2-70b-chat | 86 | 66 | 73.3 | 69 | 73.6 |
开源 | Qwen-7B-Chat | 89 | 72 | 74.0 | 59 | 73.5 |
商用 | 讯飞星火v2.0 | 72 | 75 | 79.3 | 65 | 72.8 |
开源 | Baichuan-13B-Chat-v2 | 82 | 69 | 72.7 | 67 | 72.7 |
开源 | chatglm3-6b | 82 | 68 | 78.7 | 60 | 72.2 |
开源 | tulu-30b | 76 | 76 | 75.3 | 61 | 72.1 |
开源 | belle-llama-13b-ext | 74 | 65 | 76.7 | 69 | 71.2 |
开源 | internlm-chat-20b | 74 | 64 | 77.3 | 64 | 69.8 |
开源 | Ziya-LLaMA-13B-v1.1 | 72 | 69 | 80.0 | 58 | 69.8 |
开源 | Yi-6B-Chat | 73 | 71 | 66.0 | 64.7 | 68.7 |
开源 | ziya2-13b-chat | 76 | 54 | 71.3 | 68 | 67.3 |
开源 | Linly-Chinese-LLaMA2-13B | 78 | 67 | 67.3 | 57 | 67.3 |
开源 | chatglm2-6b | 70 | 68 | 72.0 | 57 | 66.8 |
开源 | Qwen-1_8B-Chat | 73 | 66 | 75.3 | 51.3 | 66.4 |
商用 | minimax | 68 | 61 | 73.3 | 63 | 66.3 |
开源 | vicuna-33b | 82 | 65 | 63.3 | 54 | 66.1 |
开源 | wizardlm-13b | 68 | 52 | 72.0 | 48 | 60.0 |
开源 | InternLM-Chat-7B | 62 | 55 | 66.0 | 53 | 59.0 |
开源 | AquilaChat-7B | 70 | 51 | 56.0 | 55 | 58.0 |
开源 | openbuddy-openllama-3b-v10 | 64 | 60 | 61.3 | 40.7 | 56.5 |
文章转载自:https://github.com/jeinlee1991/chinese-llm-benchmark
原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/zhongwendayuyinmoxingllmhuizong/.html