DeepSeek 发布 V3.1:引入混合推理架构,思考/非思考双模式一键切换

2025 年 8 月 21 日,DeepSeek 以 MIT 协议发布 V3.1,采用思考/非思考双模式混合架构,在 V3 基础上额外训练超 800B tokens,在 SWE-bench、Terminal-bench 等基准上较前代大幅提升,并增强 Agent 能力。

DeepSeek 发布 V3.1:引入混合推理架构,思考/非思考双模式一键切换

2025 年 8 月 21 日,DeepSeek 以 MIT 协议发布 ,带来混合推理架构。

DeepSeek-V3.1 混合推理架构双模式发布概览 *图:DeepSeek 官网对话界面。V3.1 在 V3 基础上额外训练超 800B tokens,采用思考/非思考双模式混合架构,在 SWE-bench、Terminal-bench 等基准上较前代提升逾 40%,并于 9 月 22 日更新为 V3.1-Terminus。* ## 版本速览
项目 内容
模型名称 DeepSeek-V3.1 / V3.1-Base
发布时间 2025 年 8 月 21 日
核心特性 思考 / 非思考双模式混合架构
增量训练 在 V3 基础上额外训练 800B+ tokens
增强方向 编码、Agent、长程任务
开源许可 MIT License
后续迭代 V3.1-Terminus(2025-09-22)

本次发布亮点

  • 混合推理架构:同一模型提供「思考模式」与「非思考模式」,兼顾快速响应与深度推理。
  • 更大增量训练:在 V3 基础上额外训练超过 800B tokens,能力进一步增强。
  • 基准大幅提升:在 SWE-bench、Terminal-bench 等基准上较 V3 与 R1 提升明显。
  • Agent 能力增强:更适合工具调用、代码修复与多步任务编排。

双模式对比

模式 适用场景 特点
非思考模式 简单问答、即时响应 低时延、低成本
思考模式 复杂推理、编码、Agent 更深推理、更高质量

DeepSeek 版本演进时间线

版本 发布日期 定位 关键特性
DeepSeek-V2 2024-05 架构奠基 MLA + MoE,128K 上下文
DeepSeek-V3 2024-12-26 旗舰基座 671B MoE,多 token 预测
DeepSeek-R1 2025-01-20 推理特化 强化学习驱动,对标 o1
DeepSeek-R1-0528 2025-05-28 推理升级 数学基准增强,幻觉更少
DeepSeek-V3.1 ✅ 本文 2025-08-21 混合推理 思考 / 非思考双模式
DeepSeek-V3.2-Exp 2025-09-29 效率实验 稀疏注意力(DSA)
DeepSeek-V3.2 2025-12-01 正式迭代 通用增强 + Speciale
DeepSeek-V4(预览) 2026-04-24 新一代 Pro 1.6T / Flash 284B,百万上下文

重点影响解读

V3.1 将「快速回答」与「深度思考」统一到同一模型中,用户无需在不同模型之间切换即可按需调用推理深度,这对成本与体验的平衡具有现实意义,尤其利好编码与 Agent 工作流场景。

2025 年 9 月 22 日,DeepSeek 进一步发布 ,重点缓解中英文混杂与异常字符问题,并优化 Agent 能力。

对开发者的影响

对于代码修复、终端操作、工具调用等任务,V3.1 的双模式与更强 Agent 能力可减少模型切换成本。建议结合实际任务评估「思考模式」开启策略,在质量与时延之间取得平衡。

常见问题(FAQ)

Q:V3.1 的「混合架构」是什么意思? A:同一模型内置思考与非思考两种模式,可按任务需要在快速响应与深度推理之间切换。

Q:V3.1 在哪些任务上提升明显? A:在 SWE-bench、Terminal-bench 等编码与 Agent 相关基准上较 V3、R1 提升明显。

Q:V3.1 与 V3.1-Terminus 有何区别? A:Terminus 在 V3.1 基础上进一步缓解中英文混杂与异常字符,并优化 Agent 能力。

参考链接

版权声明:本文内容来自 DeepSeek 官方 。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。

用户评价

  • 加载评价中...