OpenCompass
免费
OpenCompass(司南)是上海人工智能实验室推出的开源 AI训练模型 评测体系,覆盖通用语言、学科知识、安全可信、智能体与多模态等大模型能力评估场景。
OpenCompass 是什么
OpenCompass(中文名"司南")是上海人工智能实验室主导的开源大模型评测体系。它把大语言模型的能力评估从零散的单点测试,整理为一套覆盖通用语言、学科知识、数学推理、代码能力、安全可信、智能体与多模态的标准化流程。项目以 Apache-2.0 协议在 GitHub 开源,配套对外开放的评测榜单站点 opencompass.org.cn。
它的定位不是"又一个跑分脚本",而是面向通用人工智能时代的开放评测基础设施:研究者可以用同一套配置复现他人结果,企业可以在自有模型上跑出可横向对比的指标,社区则通过公开榜单获得一致口径的能力参照。
OpenCompass 的核心参数与统计
| 项目 | 信息 |
|---|---|
| 软件类别 | 大模型评测平台 / 评测框架 |
| 最新版本 | 0.5.2(2026-02-14) |
| 开源协议 | Apache-2.0 |
| GitHub Stars | 约 7,075 |
| GitHub Forks | 约 786 |
| 数据集规模 | 100+ 评测数据集 |
| 主导机构 | 上海人工智能实验室 |
| 官方榜单 | https://opencompass.org.cn/ |
| 部署方式 | 本地框架运行 + 公开榜单查询 |
上表为客观规格,具体星标与数据集数量以官方仓库与榜单实时页面为准。
OpenCompass 的用户与市场认可
- 学术与产业引用:作为国内具代表性的开源评测体系,OpenCompass 被多家模型团队在技术报告与发布说明中用作公开评测口径之一,相关数据以各模型官方公告为准。
- 社区活跃度:仓库累计约 7,075 星、786 次 fork,持续保持版本迭代,社区贡献覆盖新基准接入与模型后端适配。
- 机构背书:由上海人工智能实验室研发并长期维护,"司南"评测体系在官方站点对外开放查询。
- 认可边界:除官方公开的星标、版本与榜单信息外,具体的企业采用名单与第三方使用规模未公开,建议以官方实时页面为准。
OpenCompass 的成本优势
- C 端 / 研究者:框架完全开源免费,本地即可运行全部评测流程,主要成本来自自备的推理算力。
- 开发者 / API 评测:支持接入第三方 API 模型进行评测,此时成本取决于被测模型的调用计费,OpenCompass 本身不额外收费。
- 企业 / 私有化:可在内网完整部署,对自研模型做闭门评测,避免将模型或测试数据外发;隐性成本主要是评测算力与工程维护投入。
- 对比口径:相较自建一套评测脚本与维护数据集,OpenCompass 以统一配置复用上百个公开基准,显著降低评测体系的搭建与维护成本。
OpenCompass 的主要功能
- 多维能力评测:覆盖通用语言、学科知识、数学与逻辑推理、代码生成、长上下文等客观能力维度。
- 主观与多模态评测:提供基于模型评分的主观题评测链路,并扩展到多模态与智能体场景的评测能力。
- 广泛模型适配:同时支持本地推理框架与远程 API 模型,覆盖 Llama、Qwen、GLM、Mistral、GPT、Claude 等主流模型族。
- 可复现配置体系:以配置文件描述模型、数据集与评测方式,保证结果可被他人按相同口径复现。
- 公开榜单:"司南"站点对外开放评测体系与领域榜单,包含科学智能、安全、具身智能、AI 计算系统等垂类方向。
OpenCompass 的模型与版本演进
OpenCompass 采用 0.x 主干持续迭代,版本节奏围绕"评测覆盖面"与"复现稳定性"两条主线推进。
配置体系重构(0.5.0)
0.5.0 重构评测配置体系,统一客观题与主观题的评测入口,并新增多套学科与推理类基准,是近一年评测能力扩张的关键节点。
稳定性与兼容性收敛(0.5.1.post1)
0.5.1.post1 集中修复任务调度与数据集加载的兼容性问题,完善长上下文与代码能力评测集,让大规模批量评测更稳定。
主观与多模态扩展(0.5.2)
最新的 0.5.2 扩充主观评测与多模态评测链路,补充近期主流模型的标准化评测配置,并优化分布式推理与结果复现。早期的 0.4.2 则奠定了广泛模型后端适配的基础。
OpenCompass 的技术优势
- 统一口径,减少评测偏差:所有模型在同一套数据集、提示与评分规则下运行,使横向对比更可信,避免"各自跑各自基准"的口径混乱。
- 配置即评测,强复现性:评测过程由配置文件完整描述,他人可按相同设置复现结果,这是评测可信度的根本来源。
- 后端解耦,扩展性强:模型推理后端与评测逻辑分离,新增本地框架或 API 模型只需补充适配层,便于快速纳入新模型。
- 分布式调度,规模可控:支持任务切分与分布式推理,使上百个数据集的批量评测在可控时间内完成,落地时需评估自有算力规模。
OpenCompass 如何使用
- 从 GitHub 克隆 open-compass/opencompass 仓库并安装依赖,准备评测所需的推理环境。
- 选择或编写配置文件,指定被测模型(本地框架或 API)与目标数据集组合。
- 运行评测任务,框架按配置完成推理、打分与汇总,落地时需关注算力占用与任务并发设置。
- 查看生成的评测报告,对照统一口径分析模型在各能力维度的表现。
- 如需公开参照,可在"司南"榜单站点查询体系内已公布的领域评测结果。
OpenCompass 的产品定价
OpenCompass 框架以 Apache-2.0 协议开源,本体免费使用,无授权费用。实际支出集中在两处:一是被测模型的推理成本(本地算力或第三方 API 调用计费),二是大规模评测的工程与运维投入。官方榜单站点对外开放查询,具体的商业合作或定制评测是否另行收费未公开,以官方实时页面为准。
OpenCompass 的应用场景
- 模型研发评测:模型团队在迭代过程中持续跟踪能力变化,用统一口径验证改进是否真实有效。
- 选型与采购评估:企业在引入外部模型前,用一致基准横向比较候选模型的学科、推理与代码能力。
- 安全与垂类评测:借助"司南"体系的安全、具身智能、AI 计算系统等方向,开展面向特定场景的专项评测。
- 学术研究复现:研究者复用公开配置复现论文中的评测结果,或在统一框架内新增基准开展对照实验。
OpenCompass 适用人群
- 大模型研发团队:需要可复现、可横向对比的内部评测基线。
- AI 选型与平台工程师:在多模型间做能力评估与采购决策。
- 安全与合规评测人员:关注安全可信与垂类领域的专项能力评测。
- 学术研究者:进行评测方法研究、基准扩展与结果复现。
- 不适配边界:若仅需一次性、轻量的单模型快速试跑,或缺乏推理算力与工程维护能力,搭建完整评测流程的投入可能偏重;这类需求更适合直接参考公开榜单结果。
总结与展望
OpenCompass 把大模型评测从零散跑分推进为统一、可复现、可扩展的开放体系,凭借开源免费、广泛模型适配与"司南"公开榜单,成为大模型能力评估的重要基础设施。其客观规格清晰、配置复现性强,适合研发评测、选型评估与安全垂类评测等场景。建议团队先以少量核心数据集做小范围试点,验证评测流程与算力占用后,再按业务方向扩展基准范围;企业在用于正式选型或对外披露前,应核验被测模型的授权条款与评测数据合规要求,并以官方榜单与仓库的实时信息为准。
版本信息
- OpenCompass 0.5.2 :扩充主观评测与多模态评测链路,补充近期主流模型的标准化评测配置,优化分布式推理与结果复现的稳定性。
- OpenCompass 0.5.1.post1 :修复评测任务调度与数据集加载的兼容性问题,完善长上下文与代码能力评测集。
- OpenCompass 0.5.0 :重构评测配置体系,统一客观题与主观题评测入口,新增多套学科与推理类基准。
- OpenCompass 0.4.2 :扩展模型后端适配范围,覆盖更多 API 模型与本地推理框架,改进评测报告导出。
用户评价