DeepSeek-V4开源上线魔乐社区，Day0解锁昇腾部署

万众期待的DeepSeek-V4终于来了！拥有。魔乐社区同步上线 DeepSeek开源权重 + 昇腾适配版，助你 Day0 开启“国产SOTA模型 × 国产算力” 双Buff加持的体验。同时，魔乐社区的DeepSeek专区已更新，将陆续上线DeepSeek-V4技术干货和更多国产算力适配模型，欢迎开发者关注体验！

魔乐社区

45人浏览 · 2026-05-18 16:42:29

魔乐社区 · 2026-05-18 16:42:29 发布

万众期待的DeepSeek-V4终于来了！拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。

魔乐社区同步上线 DeepSeek开源权重 + 昇腾适配版，助你 Day0 开启“国产SOTA模型 × 国产算力” 双Buff加持的体验。同时，魔乐社区的DeepSeek专区已更新，将陆续上线DeepSeek-V4技术干货和更多国产算力适配模型，欢迎开发者关注体验！

🔗 开源权重：

https://modelers.cn/user/deepseek-ai?model_name=DeepSeek-V4

🔗 量化权重（NPU适配）：

https://modelers.cn/models/Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp

🔗 DeepSeek专区：

https://modelers.cn/topics/deepseek

模型亮点

双版本，Pro性能比肩顶级闭源模型

DeepSeek V4 此次开源两个版本的混合专家架构（MoE）语言模型：DeepSeek-V4-Pro和DeepSeek-V4-Flash，二者均支持百万Token 的上下文长度。

DeepSeek-V4-Pro：

Agent 能力大幅提高：在 Agentic Coding 评测中，V4-Pro 已达到当前开源模型最佳水平，并在其他 Agent 相关评测中同样表现优异。
世界知识丰富：在世界知识测评中，V4-Pro大幅领先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。
世界顶级推理性能：在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。

DeepSeek-V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流的Agent产品进行了适配和优化，在代码任务、文档生成任务等方面表现均有提升。

DeepSeek-V4-Flash：更快捷高效的经济之选

相比 DeepSeek-V4-Pro，DeepSeek-V4-Flash 在世界知识储备方面稍逊一筹，但展现出了接近的推理能力。而由于模型参数和激活更小，相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。
在 Agent 测评中，DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当，但在高难度任务上仍有差距。

结构创新带来超高上下文效率

DeepSeek-V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeek Sparse Attention），实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。而且，1M（一百万）上下文将是 DeepSeek 所有官方服务的标配。

昇腾全面适配

昇腾一直同步支持DeepSeek系列模型，本次通过双方芯模技术紧密协同，实现

昇腾A2、A3及950全系列产品适配DeepSeek V4-Flash、DeepSeek V4-Pro。

昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销，大幅提升推理性能，结合多种量化算法，实现了高吞吐、低时延的DeepSeek V4模型推理部署。基于DeepSeek V4-Pro模型，在8K输入场景，昇腾950超节点可实现TPOT约20ms时单卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型，8K长序列输入场景下可实现TPOT约10ms时单卡Decode 吞吐1600TPS（注：上述Benchmark数据均基于Offine推理模式采集，不包含Serving调度和框架负载均衡影响）。
基于昇腾A3 64卡超节点结合大EP模式部署，DeepSeek V4-Flash模型，8K/1K输入输出场景，基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐，单卡吞吐持续提升。针对DeepSeek V4-Pro模型，昇腾A3同步支持推理部署，性能持续优化中。

部署推理教程

大模型推理引擎vLLM及昇腾实现：

https://docs.vllm.ai/projects/ascend/en/v0.13.0/tutorials/DeepSeek-V4.html

大模型推理引擎SGLang及昇腾实现：

https://github.com/sgl-project/sglang/issues/23598

欢迎体验

在魔乐社区，你可以轻松开启DeepSeek-V4的探索之旅：

1. 极速下载

通过社区专属高速通道，快速获取模型权重和适配版本，即刻上手体验，进行部署和微调开发。

2. 在线创建 AI 应用

进入“体验空间”，使用魔乐社区的普惠国产算力和易用工具链，无需复杂部署即可在线推理、创建专属 AI 应用，快速验证想法。

3. 交流共创共成长

前往社区“博客”板块，分享实测效果、微调方案与应用案例，与开发者共同挖掘DeepSeek-V4的无限潜力。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

小模型在昇腾NPU上的推理部署：【伪精度案例】

鲲鹏昇腾开发者社区

Verl Full Async架构昇腾实践

在大规模语言模型的强化学习（RL）训练中，高效利用计算资源是提升训练效率的核心挑战。传统RL框架普遍采用共卡共进程方案，即每张NPU在训练中仅执行单一任务，导致训练流程严格串行执行（Rollout→Train→Sync）。这种设计在实际开发中面临显著瓶颈：当处理长尾序列时，部分NPU的推理延迟会引发其他NPU的空闲等待，无法通过增加资源缓解，造成整体训练效率下降。为解决这一问题，我们设计了Full

鲲鹏昇腾开发者社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模