DeepSeek-V3：671B 参数的大模型，训练只花了不到 300 万 GPU 小时

dinghushand999

123人浏览 · 2026-06-21 13:11:41

dinghushand999 · 2026-06-21 13:11:41 发布

文章目录

DeepSeek-V3：671B 参数的大模型，训练只花了不到 300 万 GPU 小时

DeepSeek-V3：671B 参数的大模型，训练只花了不到 300 万 GPU 小时

DeepSeek-V3 是 DeepSeek 团队开源的大语言模型，总参数量 671B，但每次推理只激活 37B。这个数字乍一看很大，放在当前大模型赛道里其实算克制的。真正让人意外的是它在各种基准测试上的表现，以及训练成本。

GitHub 上 Star 数已经突破 10 万，开源社区对它的关注度很高。

正文顶部截图

架构设计：MoE 加上几项关键改进

DeepSeek-V3 采用 Mixture-of-Experts（MoE）架构，继承了 DeepSeek-V2 的 Multi-head Latent Attention（MLA）和 DeepSeekMoE 框架。在此基础上做了两个重要调整。

第一，提出了无辅助损失的负载均衡策略。之前的 MoE 模型通常用辅助损失函数来防止专家负载不均，但这会损害模型性能。DeepSeek-V3 直接绕开了这个问题。

第二，引入了多 token 预测（Multi-Token Prediction）训练目标。模型在训练时不仅预测下一个 token，还同时预测后续多个 token。这个设计对训练效果有明显提升，也为推理阶段的投机解码（speculative decoding）打下了基础。

训练过程：稳定到不像话

这是整个项目最值得注意的部分。DeepSeek-V3 在 14.8 万亿个 token 上完成预训练，只消耗了 2.788M H800 GPU 小时。做个对比，LLaMA 3 405B 的训练用了约 3000 万 GPU 小时，差了一个数量级。

而且训练过程极其稳定。官方明确说，整个训练过程中没有出现任何不可恢复的 loss spike，也没有做过一次回滚。对于一个 671B 参数的模型来说，这种稳定性不常见。

训练框架方面，DeepSeek-V3 首次在超大规模模型上验证了 FP8 混合精度训练的可行性。通过算法、框架和硬件的协同设计，基本实现了计算和通信的完全重叠，大幅降低了跨节点 MoE 训练的通信瓶颈。

后训练：从 R1 蒸馏推理能力

预训练之后，DeepSeek-V3 还经历了监督微调和强化学习两个阶段。其中有一个比较有意思的做法：从 DeepSeek-R1 系列模型中蒸馏长链推理能力，注入到 DeepSeek-V3 中。具体来说，是把 R1 的验证和反思模式融入了标准 LLM 的输出流程，推理能力提升明显，同时输出风格和长度保持可控。

README区域截图

跑分成绩：开源模型里的天花板

先看基座模型。在 MMLU 上拿到 87.1 分，BBH 上 87.5，MATH 上 61.6，HumanEval 上 65.2。这些数字基本都超过了 Qwen2.5 72B 和 LLaMA 3 405B。

再看聊天模型。MMLU-Redux 89.1，MATH-500 90.2，AIME 2024 上拿到 39.2 的 Pass@1，远超 Claude 3.5 Sonnet 的 16.0 和 GPT-4o 的 9.3。在 LiveCodeBench 上 37.6，Codeforces 百分位排名 51.6，编程能力也排在前列。

与闭源模型对比，DeepSeek-V3 在多数基准上与 GPT-4o 和 Claude 3.5 Sonnet 持平或略优，部分项目明显领先。作为开源模型，这个结果很能说明问题。

部署方案：生态已经铺开

DeepSeek-V3 官方支持多种本地部署方式：

SGLang：推荐方案，支持 MLA 优化、DP Attention、FP8 推理，NVIDIA 和 AMD GPU 都能跑
LMDeploy：支持 FP8 和 BF16 推理，适合本地和云端部署
vLLM：0.6.6 版本起支持，提供 pipeline parallelism，可以跨多台机器跑
TensorRT-LLM：支持 BF16 和 INT4/INT8 量化，FP8 支持即将上线
LightLLM：单机和多机 tensor parallel 部署

硬件方面，AMD GPU 通过 SGLang 实现了首日支持。华为昇腾 NPU 通过 MindIE 框架适配了 BF16 版本。

许可和获取

代码仓库 MIT 协议，模型本身使用 Model License，支持商业用途。模型权重可以在 Hugging Face 下载，总大小 685B，包含 671B 主模型权重和 14B MTP 模块权重。

总结一下：DeepSeek-V3 证明了一件事，大模型的训练成本可以被大幅压缩，同时性能不打折。对于关注开源大模型进展的人来说，这个项目值得持续跟踪。

一件事，大模型的训练成本可以被大幅压缩，同时性能不打折。对于关注开源大模型进展的人来说，这个项目值得持续跟踪。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

DeepSeek 大模型推理优化实战：从量化压缩到高效部署的全链路指南

华为云 MaaS（ModelArts as a Service）是一站式 AI 开发平台。它提供了从模型训练、量化、到部署的全链路服务。昇腾 NPU 原生适配：DeepSeek 模型经过深度优化，在昇腾 910B 上运行效率接近 A100自动并行：自动将模型切分到多卡/多节点弹性伸缩：根据负载自动扩缩容推理实例本文从 DeepSeek 模型推理的底层原理出发，详细介绍了从量化压缩到高效部署的全链路

鲲鹏昇腾开发者社区

当余承东喊出“我的字典里没有第二”，大模型战场已进入“华为时间”

据接近华为的内部人士透露，余承东被任正非钦点负责AI后，两大当务之急正是“捋顺华为昇腾算力平台相关业务，顺利实现对英伟达的替代”和“推进大模型的技术攻关和商业化落地”。政企市场方面，国产自主方案的信任优势形成天然壁垒——在政策导向下，核心行业的AI应用会优先考虑国产自主方案，华为是最大的受益者。这条路前期投入巨大，华为的崛起，不是在挤压其他玩家的空间，而是在用系统级的整合能力，将大模型竞争带入一个