三角洲行动导航站

三角洲行动导航站 三角洲行动导航站 三角洲行动导航站 三角洲行动导航站
  • 站点推荐
    • 关于我们
  • 直播工具
  • 抖音主播
    • 网红大神
    • 单三猛攻
    • 入坑教学
    • 勇者之证
    • 炫彩撞车
    • 娱乐甜御
    • 带粉猛攻
    • 跑刀接单
三角洲行动导航站 三角洲行动导航站
  • 三角洲行动导航站
    • 直播工具
    • 抖音主播
  • 关于我们
OpenCompass
AI模型评测

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

标签: AI模型评测
链接直达 手机查看

OpenCompass是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。

相关推荐

/uploadfile/202312/f6f5c0bd616b2f9.png
Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

/uploadfile/202312/a529b7084e2df7f.png
MMLU

大规模多任务语言理解基准

/uploadfile/202312/3ab9bba29fc079e.png
SuperCLUE

中文通用大模型综合性测评基准

/uploadfile/202312/b095cd10d03098a.png
H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型评估系统

/uploadfile/202312/10eadcfa3ad2b81.png
PubMedQA

生物医学研究问答数据集和模型得分排行榜

/uploadfile/202312/8e85d7e1e5d1f59.png
FlagEval

智源研究院推出的FlagEval(天秤)大模型评测平台

/uploadfile/202312/95d5734a7c70f43.png
LLMEval3

由复旦大学NLP实验室推出的大模型评测基准

/uploadfile/202312/5b9b709af117441.png
C-Eval

一个全面的中文基础模型评估套件

/uploadfile/202312/a4e6d5dafe3a5ca.png
CMMLU

一个综合性的大模型中文评估基准

反馈
让我们一起共建文明社区!您的反馈至关重要!
Copyright © 三角洲行动导航站  琼ICP备2026003950号  琼公网安备46010002001366号