OpenCompass 免费

Name: OpenCompass
Price: 免费 CNY
Availability: InStock
Author: 上海人工智能实验室

开发公司上海人工智能实验室

地区中国

官网 https://opencompass.org.cn/

OpenCompass（司南）是上海人工智能实验室推出的开源 AI训练模型评测体系，覆盖通用语言、学科知识、安全可信、智能体与多模态等大模型能力评估场景。

OpenCompass 是什么

OpenCompass（中文名"司南"）是上海人工智能实验室主导的开源大模型评测体系。它把大语言模型的能力评估从零散的单点测试，整理为一套覆盖通用语言、学科知识、数学推理、代码能力、安全可信、智能体与多模态的标准化流程。项目以 Apache-2.0 协议在 GitHub 开源，配套对外开放的评测榜单站点 opencompass.org.cn。

它的定位不是"又一个跑分脚本"，而是面向通用人工智能时代的开放评测基础设施：研究者可以用同一套配置复现他人结果，企业可以在自有模型上跑出可横向对比的指标，社区则通过公开榜单获得一致口径的能力参照。

OpenCompass 的核心参数与统计

项目	信息
软件类别	大模型评测平台 / 评测框架
最新版本	0.5.2（2026-02-14）
开源协议	Apache-2.0
GitHub Stars	约 7,075
GitHub Forks	约 786
数据集规模	100+ 评测数据集
主导机构	上海人工智能实验室
官方榜单	https://opencompass.org.cn/
部署方式	本地框架运行 + 公开榜单查询

上表为客观规格，具体星标与数据集数量以官方仓库与榜单实时页面为准。

OpenCompass 的用户与市场认可

学术与产业引用：作为国内具代表性的开源评测体系，OpenCompass 被多家模型团队在技术报告与发布说明中用作公开评测口径之一，相关数据以各模型官方公告为准。
社区活跃度：仓库累计约 7,075 星、786 次 fork，持续保持版本迭代，社区贡献覆盖新基准接入与模型后端适配。
机构背书：由上海人工智能实验室研发并长期维护，"司南"评测体系在官方站点对外开放查询。
认可边界：除官方公开的星标、版本与榜单信息外，具体的企业采用名单与第三方使用规模未公开，建议以官方实时页面为准。

OpenCompass 的成本优势

C 端 / 研究者：框架完全开源免费，本地即可运行全部评测流程，主要成本来自自备的推理算力。
开发者 / API 评测：支持接入第三方 API 模型进行评测，此时成本取决于被测模型的调用计费，OpenCompass 本身不额外收费。
企业 / 私有化：可在内网完整部署，对自研模型做闭门评测，避免将模型或测试数据外发；隐性成本主要是评测算力与工程维护投入。
对比口径：相较自建一套评测脚本与维护数据集，OpenCompass 以统一配置复用上百个公开基准，显著降低评测体系的搭建与维护成本。

OpenCompass 的主要功能

多维能力评测：覆盖通用语言、学科知识、数学与逻辑推理、代码生成、长上下文等客观能力维度。
主观与多模态评测：提供基于模型评分的主观题评测链路，并扩展到多模态与智能体场景的评测能力。
广泛模型适配：同时支持本地推理框架与远程 API 模型，覆盖 Llama、Qwen、GLM、Mistral、GPT、Claude 等主流模型族。
可复现配置体系：以配置文件描述模型、数据集与评测方式，保证结果可被他人按相同口径复现。
公开榜单："司南"站点对外开放评测体系与领域榜单，包含科学智能、安全、具身智能、AI 计算系统等垂类方向。

OpenCompass 的模型与版本演进

OpenCompass 采用 0.x 主干持续迭代，版本节奏围绕"评测覆盖面"与"复现稳定性"两条主线推进。

配置体系重构（0.5.0）

0.5.0 重构评测配置体系，统一客观题与主观题的评测入口，并新增多套学科与推理类基准，是近一年评测能力扩张的关键节点。

稳定性与兼容性收敛（0.5.1.post1）

0.5.1.post1 集中修复任务调度与数据集加载的兼容性问题，完善长上下文与代码能力评测集，让大规模批量评测更稳定。

主观与多模态扩展（0.5.2）

最新的 0.5.2 扩充主观评测与多模态评测链路，补充近期主流模型的标准化评测配置，并优化分布式推理与结果复现。早期的 0.4.2 则奠定了广泛模型后端适配的基础。

OpenCompass 的技术优势

统一口径，减少评测偏差：所有模型在同一套数据集、提示与评分规则下运行，使横向对比更可信，避免"各自跑各自基准"的口径混乱。
配置即评测，强复现性：评测过程由配置文件完整描述，他人可按相同设置复现结果，这是评测可信度的根本来源。
后端解耦，扩展性强：模型推理后端与评测逻辑分离，新增本地框架或 API 模型只需补充适配层，便于快速纳入新模型。
分布式调度，规模可控：支持任务切分与分布式推理，使上百个数据集的批量评测在可控时间内完成，落地时需评估自有算力规模。

OpenCompass 如何使用

从 GitHub 克隆 open-compass/opencompass 仓库并安装依赖，准备评测所需的推理环境。
选择或编写配置文件，指定被测模型（本地框架或 API）与目标数据集组合。
运行评测任务，框架按配置完成推理、打分与汇总，落地时需关注算力占用与任务并发设置。
查看生成的评测报告，对照统一口径分析模型在各能力维度的表现。
如需公开参照，可在"司南"榜单站点查询体系内已公布的领域评测结果。

OpenCompass 的产品定价

OpenCompass 框架以 Apache-2.0 协议开源，本体免费使用，无授权费用。实际支出集中在两处：一是被测模型的推理成本（本地算力或第三方 API 调用计费），二是大规模评测的工程与运维投入。官方榜单站点对外开放查询，具体的商业合作或定制评测是否另行收费未公开，以官方实时页面为准。

OpenCompass 的应用场景

模型研发评测：模型团队在迭代过程中持续跟踪能力变化，用统一口径验证改进是否真实有效。
选型与采购评估：企业在引入外部模型前，用一致基准横向比较候选模型的学科、推理与代码能力。
安全与垂类评测：借助"司南"体系的安全、具身智能、AI 计算系统等方向，开展面向特定场景的专项评测。
学术研究复现：研究者复用公开配置复现论文中的评测结果，或在统一框架内新增基准开展对照实验。

OpenCompass 适用人群

大模型研发团队：需要可复现、可横向对比的内部评测基线。
AI 选型与平台工程师：在多模型间做能力评估与采购决策。
安全与合规评测人员：关注安全可信与垂类领域的专项能力评测。
学术研究者：进行评测方法研究、基准扩展与结果复现。
不适配边界：若仅需一次性、轻量的单模型快速试跑，或缺乏推理算力与工程维护能力，搭建完整评测流程的投入可能偏重；这类需求更适合直接参考公开榜单结果。

总结与展望

OpenCompass 把大模型评测从零散跑分推进为统一、可复现、可扩展的开放体系，凭借开源免费、广泛模型适配与"司南"公开榜单，成为大模型能力评估的重要基础设施。其客观规格清晰、配置复现性强，适合研发评测、选型评估与安全垂类评测等场景。建议团队先以少量核心数据集做小范围试点，验证评测流程与算力占用后，再按业务方向扩展基准范围；企业在用于正式选型或对外披露前，应核验被测模型的授权条款与评测数据合规要求，并以官方榜单与仓库的实时信息为准。

版本信息

OpenCompass 0.5.2 ：扩充主观评测与多模态评测链路，补充近期主流模型的标准化评测配置，优化分布式推理与结果复现的稳定性。（2026-02-14）
OpenCompass 0.5.1.post1 ：修复评测任务调度与数据集加载的兼容性问题，完善长上下文与代码能力评测集。（2025-10-17）
OpenCompass 0.5.0 ：重构评测配置体系，统一客观题与主观题评测入口，新增多套学科与推理类基准。（2025-09-01）
OpenCompass 0.4.2 ：扩展模型后端适配范围，覆盖更多 API 模型与本地推理框架，改进评测报告导出。（2025-04-02）

用户评价

加载评价中...