AI模型评测

共 14 篇AI工具

MMBench

专注于多模态基准测试的平台，提供了一个全面的评估框架

0

AGI-Eval

专注于通用人工智能（AGI）能力评估的平台

0

SuperCLUE

专注于中文语言理解的基准测试平台

0

C-Eval

专注于评估中文语言模型性能的基准测试平台

0

FlagEval

北京人工智能研究院（BAAI）开发的开源评估平台

0

LLMEval3

专注于评估大型语言模型（LLM）性能的开放平台

0

Chatbot Arena

通过用户投票和对比测试，评估不同聊天机器人模型的开放平台

0

CMMLU

专注于中文语境的多任务评估框架

0

OpenCompass

上海人工智能实验室推出的专注于对大型语言模型（LLM）的开源评测体系

0

H2O EvalGPT

H2O.ai 开发的 GPT 模型评估工具

0

PubMedQA

评估 AI 模型在生物医学领域的阅读理解能力

0

HELM

斯坦福大学开源的语言模型评测框架

0

Open LLM Leaderboard

Hugging Face 推出的大语言模型的评估平台

0

MMLU

多任务语言理解基准测试，涵盖了 57 个不同的任务领域

0