DeepSeek 发布 V3.2-Exp 实验版:引入稀疏注意力 DSA,提升长文本效率

2025 年 9 月 29 日,DeepSeek 发布实验版 V3.2-Exp,引入 DeepSeek 稀疏注意力(DSA),在长上下文场景下提升计算效率,为后续正式版的效率优化铺路。

DeepSeek 发布 V3.2-Exp 实验版:引入稀疏注意力 DSA,提升长文本效率

2025 年 9 月 29 日,DeepSeek 发布实验版 ,重点验证新的注意力机制。

DeepSeek-V3.2-Exp 稀疏注意力 DSA 实验版发布概览

图:DeepSeek 官网对话界面。V3.2-Exp 于 2025 年 9 月 29 日在 Hugging Face 发布,首次引入 DeepSeek 稀疏注意力(DSA),其机制源自团队 2025 年 2 月发表的原生稀疏注意力(Native Sparse Attention)论文成果。

版本速览

项目 内容
模型名称 DeepSeek-V3.2-Exp(实验版)
发布时间 2025 年 9 月 29 日
核心技术 DeepSeek 稀疏注意力(DSA)
优化目标 长上下文计算效率
技术来源 原生稀疏注意力研究(2025-02)
定位 实验性迭代,面向验证与评测

本次发布亮点

  • 引入 DSA:DeepSeek Sparse Attention,提升注意力计算效率。
  • 基于既有研究:源自此前发表的原生稀疏注意力论文成果。
  • 面向长上下文:主要验证新机制在长文档、长对话场景下的效率表现。

标准注意力 vs 稀疏注意力(DSA)

维度 标准注意力 稀疏注意力(DSA)
计算复杂度 随序列长度快速增长 更优的长序列扩展性
长上下文成本 较高 降低
适用场景 通用 长文档、长对话

DeepSeek 版本演进时间线

版本 发布日期 定位 关键特性
DeepSeek-V2 2024-05 架构奠基 MLA + MoE,128K 上下文
DeepSeek-V3 2024-12-26 旗舰基座 671B MoE,多 token 预测
DeepSeek-R1 2025-01-20 推理特化 强化学习驱动,对标 o1
DeepSeek-R1-0528 2025-05-28 推理升级 数学基准增强,幻觉更少
DeepSeek-V3.1 2025-08-21 混合推理 思考 / 非思考双模式
DeepSeek-V3.2-Exp ✅ 本文 2025-09-29 效率实验 稀疏注意力(DSA)
DeepSeek-V3.2 2025-12-01 正式迭代 通用增强 + Speciale
DeepSeek-V4(预览) 2026-04-24 新一代 Pro 1.6T / Flash 284B,百万上下文

重点影响解读

V3.2-Exp 是一次面向效率的探索性发布。稀疏注意力可在长文档、长对话等场景降低计算开销,为后续正式版本的效率优化铺路。作为实验版,它更适合研究与评测,而非直接用于关键生产链路。

随后于 2025 年 12 月 1 日,DeepSeek 发布正式版 ,并提供侧重推理的 V3.2-Speciale 变体。

对开发者的影响

关注长上下文成本的团队可在评测环境体验 DSA 带来的效率变化,对比相同任务下的时延与资源占用,为后续是否迁移到正式版提供依据。

常见问题(FAQ)

Q:DSA 是什么? A:DeepSeek Sparse Attention,一种更高效的稀疏注意力机制,源自原生稀疏注意力研究。

Q:为什么叫「实验版」? A:V3.2-Exp 主要用于验证新机制在长上下文场景下的效果,更适合研究与评测。

Q:稀疏注意力带来什么收益? A:在长文档、长对话等场景降低计算开销,改善长序列下的效率。

参考链接

版权声明:本文内容来自 DeepSeek 官方 。本平台对该内容进行了编译和整理,仅用于信息传播和学习交流之用。如有侵权,请联系我们进行处理。

用户评价

  • 加载评价中...