DeepSeek 发布 V2 开源大模型：首创 MLA 架构，236B MoE 主打高性价比

2024-05-06

AIStarMap 编辑部

2024 年 5 月，DeepSeek 发布 DeepSeek-V2 系列开源大模型，首次引入多头潜在注意力（MLA）与 MoE 稀疏架构，236B 总参数、单 token 激活约 21B，以极低推理成本对标主流模型，奠定后续 V3、R1 的高效路线。

2024 年 5 月，DeepSeek 发布系列开源大模型。作为 AI 智能助手赛道的代表性开源模型，V2 首次将多头潜在注意力（MLA）与 Mixture of Experts（MoE）结合，成为 DeepSeek 系列演进的关键技术里程碑。

图：DeepSeek 官网首页与对话入口。V2 预训练语料约 8.1T tokens，采用 YaRN 将上下文从 4K 扩展至 128K，并以 MLA 压缩 KV 缓存，据《金融时报》报道其每百万输出 token 价格低至 2 元人民币。

版本速览

图：DeepSeek-V2 论文 Figure 2，左侧为共享专家 + 路由专家的 MoE 结构，右侧为多头潜在注意力（MLA）对 KV 缓存的压缩设计。图片来源：Wikimedia Commons，作者 DeepSeek，许可 MIT License。

V2 是 DeepSeek 在架构路线上的奠基性版本。MLA 与 MoE 的组合，使模型在保持强能力的同时大幅压低推理成本，为后续与的高效路线奠定了技术基础。

据媒体报道，V2 以极具竞争力的 token 价格进入市场，推动了国内大模型的价格调整，被视为开源高性价比模型的代表之一。

对于关注成本与吞吐的团队，V2 的低显存占用与稀疏激活机制意味着在相同硬件条件下可承载更高并发，适合检索增强、批量内容生成、企业知识问答等场景的自建部署与二次研究。

Q：DeepSeek-V2 的最大创新是什么？ A：首次引入多头潜在注意力（MLA），通过压缩 KV 缓存显著降低显存与推理成本。

Q：V2 的参数规模有多大？ A：旗舰版本总参数约 236B，单 token 激活约 21B，采用 MoE 稀疏架构。

Q：V2 是否开源、可否商用？ A：DeepSeek-V2 以开放权重形式发布，具体授权范围以官方仓库许可为准。