DeepSeek 发布 R1 推理模型:MIT 开源对标 OpenAI o1,引发全球 AI 震动
2025 年 1 月 20 日,DeepSeek 以 MIT 协议开源 DeepSeek-R1 推理模型,从 V3-Base 初始化、以强化学习驱动训练,数学与编程推理对标 OpenAI o1 且免费可用,应用迅速登顶美国 App Store 并引发市场震动。
DeepSeek 发布 R1 推理模型:MIT 开源对标 OpenAI o1,引发全球 AI 震动
2025 年 1 月 20 日,
DeepSeek 以 MIT 协议开源
图:DeepSeek 官网首页与对话界面。基于 R1 的 DeepSeek 应用于 2025 年 1 月免费上线 iOS 与 Android,1 月 27 日登顶美国 App Store 免费榜,相关研究于 2025 年 9 月登上《自然》(Nature)期刊。
版本速览
| 项目 | 内容 |
|---|---|
| 模型名称 | DeepSeek-R1 / R1-Zero / R1-Distill |
| 发布时间 | 2025 年 1 月 20 日 |
| 初始化基础 | DeepSeek-V3-Base(共享其架构) |
| 训练方法 | 强化学习(GRPO) |
| 能力定位 | 逻辑推理、数学、编程 |
| 开源许可 | MIT License |
| 对标对象 | OpenAI o1 |
本次发布亮点
- 从 V3-Base 初始化:共享 V3 架构,专注逻辑推理与数学求解。
- 强化学习驱动:采用 GRPO,R1-Zero 仅用规则化奖励、无 SFT 冷启动。
- 对标 o1:官方称在 AIME、MATH 等基准对标 OpenAI o1。
- 丰富蒸馏版本:同步开源基于 Llama、Qwen 的蒸馏模型,便于小规模硬件部署。
R1 与 R1-Zero 训练路线对比
| 维度 | DeepSeek-R1-Zero | DeepSeek-R1 |
|---|---|---|
| 冷启动 SFT | 无 | 有(千级冷启动数据) |
| 奖励类型 | 纯规则化(准确率 + 格式) | 规则化 + 模型奖励 |
| 语言一致性 | 存在中英混杂问题 | 引入语言一致性奖励 |
| 可读性 | 较弱 | 显著改善 |
图:DeepSeek-R1 的多阶段训练流水线。从 DeepSeek-V3-Base 出发,经 R1-Zero 纯强化学习、冷启动长思维链 SFT、多轮 GRPO 强化学习(准确率 + 格式 + 语言一致性奖励)逐步得到 DeepSeek-R1。图片来源:Wikimedia Commons,出自 DeepSeek-R1 论文(Guo et al.),许可 CC BY 4.0。
DeepSeek 版本演进时间线
| 版本 | 发布日期 | 定位 | 关键特性 |
|---|---|---|---|
| DeepSeek-V2 | 2024-05 | 架构奠基 | MLA + MoE,128K 上下文 |
| DeepSeek-V3 | 2024-12-26 | 旗舰基座 | 671B MoE,多 token 预测 |
| DeepSeek-R1 ✅ 本文 | 2025-01-20 | 推理特化 | 强化学习驱动,对标 o1 |
| DeepSeek-R1-0528 | 2025-05-28 | 推理升级 | 数学基准增强,幻觉更少 |
| DeepSeek-V3.1 | 2025-08-21 | 混合推理 | 思考 / 非思考双模式 |
| DeepSeek-V3.2-Exp | 2025-09-29 | 效率实验 | 稀疏注意力(DSA) |
| DeepSeek-V3.2 | 2025-12-01 | 正式迭代 | 通用增强 + Speciale |
| DeepSeek-V4(预览) | 2026-04-24 | 新一代 | Pro 1.6T / Flash 284B,百万上下文 |
重点影响解读
R1 的开源与低成本特性,被多家媒体形容为人工智能领域的「斯普特尼克时刻」。基于 R1 的 DeepSeek 应用免费上线 iOS 与 Android,1 月 27 日登顶美国 App Store 免费榜,并一度引发英伟达等科技股大幅波动。
这次发布让「低成本也能做出顶级推理模型」的路线获得广泛验证,并推动国内多家厂商跟进调整模型价格。R1 相关研究后续登上《自然》期刊。
对开发者的影响
对于需要强推理能力的应用,R1 提供了可自由商用的开源权重与丰富的蒸馏版本,覆盖从云端到本地的多种部署需求,适合数学求解、代码生成、复杂任务链等场景。
常见问题(FAQ)
Q:DeepSeek-R1 对标哪款模型? A:官方称其在 AIME、MATH 等推理与数学基准上对标 OpenAI o1。
Q:R1 是否免费、能否商用? A:R1 以 MIT 协议开源,可自由使用与商用,并提供多个蒸馏版本。
Q:R1 为何引发「斯普特尼克时刻」之说? A:它以远低于同级别闭源模型的成本实现顶级推理能力,并开源开放,冲击了既有格局。
用户评价