AI模型评测

共 14 篇网址

AI模型评测

MMLU

多任务语言理解基准测试，涵盖了 57 个不同的任务领域

100

Open LLM Leaderboard

Open LLM Leaderboard

Hugging Face 推出的大语言模型的评估平台

170

HELM

斯坦福大学开源的语言模型评测框架

120

PubMedQA

评估 AI 模型在生物医学领域的阅读理解能力

130

H2O EvalGPT

H2O.ai 开发的 GPT 模型评估工具

100

OpenCompass

上海人工智能实验室推出的专注于对大型语言模型（LLM）的开源评测体系

120

CMMLU

专注于中文语境的多任务评估框架

100

Chatbot Arena

通过用户投票和对比测试，评估不同聊天机器人模型的开放平台

380

LLMEval3

专注于评估大型语言模型（LLM）性能的开放平台

110

FlagEval

北京人工智能研究院（BAAI）开发的开源评估平台

110

C-Eval

专注于评估中文语言模型性能的基准测试平台

120

SuperCLUE

专注于中文语言理解的基准测试平台

110

AGI-Eval

专注于通用人工智能（AGI）能力评估的平台

110

MMBench

MMBench 是一个专注于多模态基准测试的平台，旨在评估和...

180