DeepSeek-V3:671B 参数的大模型,训练只花了不到 300 万 GPU 小时
文章目录
DeepSeek-V3:671B 参数的大模型,训练只花了不到 300 万 GPU 小时
DeepSeek-V3 是 DeepSeek 团队开源的大语言模型,总参数量 671B,但每次推理只激活 37B。这个数字乍一看很大,放在当前大模型赛道里其实算克制的。真正让人意外的是它在各种基准测试上的表现,以及训练成本。
GitHub 上 Star 数已经突破 10 万,开源社区对它的关注度很高。

架构设计:MoE 加上几项关键改进
DeepSeek-V3 采用 Mixture-of-Experts(MoE)架构,继承了 DeepSeek-V2 的 Multi-head Latent Attention(MLA)和 DeepSeekMoE 框架。在此基础上做了两个重要调整。
第一,提出了无辅助损失的负载均衡策略。之前的 MoE 模型通常用辅助损失函数来防止专家负载不均,但这会损害模型性能。DeepSeek-V3 直接绕开了这个问题。
第二,引入了多 token 预测(Multi-Token Prediction)训练目标。模型在训练时不仅预测下一个 token,还同时预测后续多个 token。这个设计对训练效果有明显提升,也为推理阶段的投机解码(speculative decoding)打下了基础。
训练过程:稳定到不像话
这是整个项目最值得注意的部分。DeepSeek-V3 在 14.8 万亿个 token 上完成预训练,只消耗了 2.788M H800 GPU 小时。做个对比,LLaMA 3 405B 的训练用了约 3000 万 GPU 小时,差了一个数量级。
而且训练过程极其稳定。官方明确说,整个训练过程中没有出现任何不可恢复的 loss spike,也没有做过一次回滚。对于一个 671B 参数的模型来说,这种稳定性不常见。
训练框架方面,DeepSeek-V3 首次在超大规模模型上验证了 FP8 混合精度训练的可行性。通过算法、框架和硬件的协同设计,基本实现了计算和通信的完全重叠,大幅降低了跨节点 MoE 训练的通信瓶颈。
后训练:从 R1 蒸馏推理能力
预训练之后,DeepSeek-V3 还经历了监督微调和强化学习两个阶段。其中有一个比较有意思的做法:从 DeepSeek-R1 系列模型中蒸馏长链推理能力,注入到 DeepSeek-V3 中。具体来说,是把 R1 的验证和反思模式融入了标准 LLM 的输出流程,推理能力提升明显,同时输出风格和长度保持可控。

跑分成绩:开源模型里的天花板
先看基座模型。在 MMLU 上拿到 87.1 分,BBH 上 87.5,MATH 上 61.6,HumanEval 上 65.2。这些数字基本都超过了 Qwen2.5 72B 和 LLaMA 3 405B。
再看聊天模型。MMLU-Redux 89.1,MATH-500 90.2,AIME 2024 上拿到 39.2 的 Pass@1,远超 Claude 3.5 Sonnet 的 16.0 和 GPT-4o 的 9.3。在 LiveCodeBench 上 37.6,Codeforces 百分位排名 51.6,编程能力也排在前列。
与闭源模型对比,DeepSeek-V3 在多数基准上与 GPT-4o 和 Claude 3.5 Sonnet 持平或略优,部分项目明显领先。作为开源模型,这个结果很能说明问题。
部署方案:生态已经铺开
DeepSeek-V3 官方支持多种本地部署方式:
- SGLang:推荐方案,支持 MLA 优化、DP Attention、FP8 推理,NVIDIA 和 AMD GPU 都能跑
- LMDeploy:支持 FP8 和 BF16 推理,适合本地和云端部署
- vLLM:0.6.6 版本起支持,提供 pipeline parallelism,可以跨多台机器跑
- TensorRT-LLM:支持 BF16 和 INT4/INT8 量化,FP8 支持即将上线
- LightLLM:单机和多机 tensor parallel 部署
硬件方面,AMD GPU 通过 SGLang 实现了首日支持。华为昇腾 NPU 通过 MindIE 框架适配了 BF16 版本。
许可和获取
代码仓库 MIT 协议,模型本身使用 Model License,支持商业用途。模型权重可以在 Hugging Face 下载,总大小 685B,包含 671B 主模型权重和 14B MTP 模块权重。
总结一下:DeepSeek-V3 证明了一件事,大模型的训练成本可以被大幅压缩,同时性能不打折。对于关注开源大模型进展的人来说,这个项目值得持续跟踪。
一件事,大模型的训练成本可以被大幅压缩,同时性能不打折。对于关注开源大模型进展的人来说,这个项目值得持续跟踪。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐

所有评论(0)