DeepSeek-R2:1.2 万亿参数模型将新药筛选缩至 8 小时单张昇腾 910B 实现高效推理
简单来说,模型内置了 512 个专用专家模块,这些模块会在 4 个共享专家模块的协调下 “按需工作”—— 门控网络以 FP16 精度实时判断数据处理需求,确定哪些模块需要协同,再将计算产生的梯度回传给稀疏注意力层,最终实现 “精准激活、减少冗余” 的效果。8 月 13 日深度求索发布的 DeepSeek-R2 模型,首次将医药研发的靶点筛选时间从 72 小时压缩至 8 小时,其效率提升对缩短医药研

8 月 13 日深度求索发布的 DeepSeek-R2 模型,首次将医药研发的靶点筛选时间从 72 小时压缩至 8 小时,其效率提升对缩短医药研发周期的意义,堪比砍掉一季临床试验筹备时间 —— 这一突破让 AI 在医药研发核心环节的落地效率迈过关键门槛。
从技术参数来看,DeepSeek-R2 总参数达 1.2 万亿,但推理时仅激活 780 亿参数,稀疏度精准控制在 6% 左右。这一设计带来了显著的算力优化:单张昇腾 910B 即可跑出每秒 320 token 的吞吐速度;若以 AWS p4d.24xlarge 实例的按需价格折算,其处理百万 token 的成本仅 0.07 美元,仅为 GPT-4 的 3%(来源:8 月 13 日深度求索发布会公开数据)。这种 “高参数规模 + 低推理激活” 的模式,打破了 “大模型必耗强算力” 的固有认知。
支撑这一效率的核心是 “动态神经集群” 技术。简单来说,模型内置了 512 个专用专家模块,这些模块会在 4 个共享专家模块的协调下 “按需工作”—— 门控网络以 FP16 精度实时判断数据处理需求,确定哪些模块需要协同,再将计算产生的梯度回传给稀疏注意力层,最终实现 “精准激活、减少冗余” 的效果。这一技术不仅让模型在 COCO 图像分割任务中达到 92.4% 的准确率,更将医疗影像诊断准确率提升至 98.1%,为跨领域应用奠定基础。
对 GPU 云主机场景而言,DeepSeek-R2 的稀疏计算带来了显存与集群效率的双重优化:显存峰值从传统大模型的 640 GB 骤降至 96 GB,相同的 AWS p4d 实例可并行处理四组任务;调度器还能将空出的 PCIe 带宽分配给分子动力学模拟,使整体集群利用率从 42% 提升至 78%。“以前一次靶点虚拟筛选要跑满 20 张 A100,现在一张 910B 就能在午饭前收工。” 博济医药高级副总裁李庆云在发布会现场的这句话,直观体现了技术对行业的实际价值。未来,随着稀疏计算在更多研发场景的应用,AI 或将进一步压缩医药研发的时间与成本壁垒。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐



所有评论(0)