奇点倒计时与算力新命题：一场超节点技术巅峰对话的全纪录

5月22日晚19点，2026年鲲鹏昇腾开发者大会（KADC）开幕首日，一场以"AI Agent浪潮下，定义AI算力基础设施，实现Token自由"为主题的技术巅峰对话在北京中关村国际创新中心举行，华为Fellow、计算架构与设计部部长蒋铭，奇点智能研究院院长、CSDN高级副总裁李建忠，科大讯飞内核技术部总监汪锦想三位嘉宾，围绕AI Agent的发展趋势、大模型的技术演进以及超节点架构的核心价值展开了

CSDN资讯

70人浏览 · 2026-06-04 17:54:47

CSDN资讯 · 2026-06-04 17:54:47 发布

当前，Agent 正在重构整个软件产业，Token 消耗呈指数级增长，传统的 Scale Out 集群架构已经走到了物理极限。三位嘉宾从技术趋势、产业实践和架构创新三个维度，清晰地论证了一个核心判断：超节点不是对传统架构的修补，而是一场算力范式革命，是支撑Agentic AI时代的最优解。

奇点倒计时：Agent正在重构整个软件产业

所有技术变革的起点，都是需求的爆发。本次对话的第一个共识是：AI Agent已经从概念走向现实，正在以超出所有人预期的速度重塑软件产业的形态和开发方式。

技术奇点已进入倒计时，指数级增长成为行业共识

蒋铭在开场中引述了两个近期信号。一是Anthropic联合创始人Jack Clark在5月4日预言，2028年Agent有60%的概率进入自主进化阶段；二是赫拉利在2026年初的达沃斯论坛上宣告，技术奇点可能在2030年前后到来。

李建忠结合技术史的发展，介绍了“连接”与“计算”的技术钟摆效应：第一次连接革命发生在1840～1940年间，代表技术是电报、电话、广播、电视；接着是1940～1990年间的计算革命，代表技术是大型机、小型机、PC；然后是1990～2015年之间的第二次连接革命，代表技术是互联网、移动互联网、云计算；再之后是2016年至今的第二次计算革命，也就是人工智能，以Transformer、大语言模型为标志。从时间尺度来看，连接革命与计算革命交替进行，且大约以100年、50年、25年的指数级加速呈现。依此预测，AGI的奇点大约时间即为2030年左右。

李建忠强调"奇点临近的这种指数级加速度，特别是2026年在Agent和AI Coding方面的爆发，让全行业都感受到非常强烈的推背感"——即AI技术的飞速发展对产业生态的倒逼式冲击。

汪锦想则从一线研发的视角描述了这种非线性加速的切身感受："AI这个东西好像离我们很远，但它的速度不是线性的。它好像是迷雾中的东西，当你听到声音的时候，真正发现时可能已经到眼前了。"

AI Coding 爆发，软件产业正在经历双轮驱动变革

这种指数级增长最直观的体现，就是 AI Coding 领域的爆发。

2025年5月发布的Claude Code ，半年后ARR突破10亿美元，到2026年5月预计达到100亿美元——成为企业软件史上增长最快的产品。公司估值从2025年3月的615亿美元飙升至2026年5月的9000亿乃至12000亿美元。

"这个产品是我个人认知转变的一个缩影，"蒋铭坦言，"我是一个老程序员，去年年初用AI编程时觉得它只能做辅助级的工作。但今年初用了Claude之后完全转变了——代码写得太快了，我根本看不过来。它会自动做单元测试，自己写错了还会根据报错自行修正，多轮迭代后满足新的要求。"

汪锦想从需求侧解释了这种爆发的深层逻辑："以前软件是奢侈品，现在变成了很普通的东西。原来不会写代码的人也能做出初步原型。需求量非常大，大家看到了震撼的场景应用之后，这个增长速度和需求量，对Token的消耗就非常大。"

李建忠则将这场变革概括为一个更具穿透力的框架——"Agent时代双轮驱动的软件范式变化"。

首先是软件应用形态的变化，越来越多的软件被Agent取代，部分软件变成Agent的下游工具。深层次来看，这是基于冯·诺依曼架构的确定性计算，在向基于神经网络的非确定性计算的范式迁移。"

与此同时，软件开发方式也在快速变化：Agent正在成为软件开发的主力，在软件开发流程的各个环节发挥重要作用。程序员则从Programmer向Builder角色转化。双轮驱动加乘之后的范式变革是颠覆式的，"你做的东西变了，你做事的方法也变了。"

他将AI Coding的冲击力类比为"推土机"——一层一层把传统软件铲掉。"SaaS软件去年的收入并没有降很多，但估值体系几乎崩塌了。因为大家看到了Agent对它的颠覆级作用。"

Claude Code不是一家公司的胜利，而是一个信号：Token正在从对话消耗品变成生产力要素。而生产力要素的大规模需求，离不开基础设施的支撑。

算力瓶颈不在算力本身，而在"访存比"

要理解为什么需要超节点，首先要理解大模型推理的核心瓶颈在哪里。

AI 计算的本质矛盾是算力与访存的失衡

蒋铭用第一性原理做了一个简洁的解释。

"AI计算本质上是并行计算系统。在局部进行比特翻转、晶体管的状态变化，效率很高。但在长链路上进行数据搬移，非常困难。"他说，"这导致所有并行计算系统都面临一个核心指标——算力访存比：一个数据读进来，需要处理多少次才能把算力充分发挥出来。"

矛盾恰恰出在超长序列推理上。以DeepSeek V3为例，单条1M长序列的KV Cache需要约35GB内存空间，一张卡的内存不过一两百GB，能支持的批次大小仅5到6条。批次上不去，算力利用率就低，推理成本就高。

"这就是Token昂贵的来源。"蒋铭说。Claude Code的API输出定价为每百万Token 25美元，Fast Mode高达150美元——而DeepSeek V4的同等输出仅6元人民币，差距高达30倍。蒋铭指出，这种价格差异背后是模型架构创新的差异：DeepSeek V4的超稀疏MoE架构，使实际算力消耗大幅降低，但能力因参数规模依然很强。

MoE 模型将瓶颈从算力转向访存

然而，超稀疏MoE带来了新的挑战——主要瓶颈从算力转向了访存。假设所有专家放在一张卡上，批次为64时会产生384个专家处理请求，需要读取约1.5TB参数，但每个数据只计算两次，违背了高算力访存比原则。

解决这个问题的业界通用方案是专家并行（EP）—— 将专家分散到更多卡上，每张卡存放尽可能少的专家。极限情况下，每张卡放一个专家，读一次参数可以计算多次，算力访存比大幅提升。但 EP 并行的效果高度依赖互联质量。蒋铭以华为自身产品为例做了对比："传统以太网集群也可以做 EP 并行，但同样并行规模下，性能与超节点相比差距达 2.5 到 3 倍。通过专家并行获得的访存效率提升收益，会被以太网的通信代价全部吃掉。"

汪锦想从解码环节的技术特性做了更深层的剖析。他指出了一个关键事实：解码是一个无法掩盖通信开销的串行过程。

"通讯的时候就做通讯，通讯完了再做专家计算，计算完再做后续运算。相互之间都没有办法掩盖。"他说，"一旦通信不能隐藏，开销就全部暴露出来。"在训练阶段，通信开销可以通过计算任务穿插来部分掩盖。但解码不行——它是逐token生成的严格串行过程，每一次通信都是硬等待。"按照我们的实践，这种不可隐藏的通信，你通过其他维度去调优会付出很大代价——增加复杂度，出错概率也增多。"汪锦想的结论是，"最好的办法还是把时延降低和把带宽提升上去。说到底，还是要靠顶尖的互联技术把不可隐藏的通信延迟降下来。这是最硬核的技术。"

这也就解释了超节点为何成为大模型推理的关键底座——它不是一个"锦上添花"的性能优化，而是专家并行能否成立的前提条件。没有足够快的互联，EP并行的收益会被抵消，大模型推理就只能停留在昂贵的低效状态。

超节点的本质不是"更多卡"，而是"一台计算机"

那么，超节点究竟是什么？它和传统集群有什么本质区别？

超节点是"物理上由多个计算单元通过高效互联协议紧密连接，逻辑上具备一台计算机特征的Scale Up计算系统"。

它和传统集群最核心的区别，不是简单的多设备堆叠，而是打破了节点边界——核心依托灵衢互联技术，构建了两大核心能力：

全局统一的内存地址空间。传统集群中，每个节点拥有独立的地址空间，跨节点通信需要软件编码、协议传输。而在超节点架构下，所有NPU和CPU共享一个全局单一虚拟地址空间，可以直接用虚拟地址访问任意位置——无需改代码、无需路由、无需拷贝，直接通过load/store指令完成数据访问。
内存语义跨节点访问。超节点的通信不是由显性的"通信原语"触发的，而是由处理器微内核的load/store微指令直接发起，在纳秒级触发总线上的数据交互。正如蒋铭所解释的："汇编语言最基础的指令就是load/store，这些微指令直接触发总线操作，转化为通信行为。指令周期在纳秒级，一个指令就能完成一次通信调度。"

汪锦想从昇腾架构的实际落地角度做了补充："基于灵衢互联和总线控制器，AIC/AIV通过MTE指令访存远端，无拷贝。512B小包读写对比消息语义，时延下降59%。全局单一虚拟地址空间，NPU/CPU直接用虚拟地址访问任意位置，无需改代码、无需路由、无需拷贝，直接load/store。KV Cache全局共享、超长上下文无缝扩展。"

这两项核心能力，使超节点不再是传统意义上的集群，而是一台真正意义上的"超级计算机"。

当然，将数百个计算单元整合为"一台计算机"并非没有代价。蒋铭坦诚地讨论了技术挑战："以太网丢包是常见现象，依靠握手协议保障数据完整。但超节点架构无法依靠处理器处理这类校验工作，耗时太大。容错、拥塞、反压等防护机制都必须在硬件总线层面实现，技术难度很高。"

正是这些底层创新的难度，构成了超节点的技术壁垒。

超节点的规模为什么必须持续扩大？因为模型的Scaling Law没有停下

超节点的规模演进，不是厂商的军备竞赛，而是模型发展规律的客观要求。

汪锦想从模型发展的视角分析了这一趋势："从几B模型到100B，再到MOE架构的300B，现在是多T的规模。这种扩大对智能提升是有的，但受限于AI Infra的工程能力。工程能力越强，承载的模型尺寸就越大。"他进一步指出，专家数的演进路径已经清晰——"现在是200、300、400个，未来有可能增加到1000多个。"

李建忠则提出了一个更具前瞻性的维度——Agentic Scaling。"从去年到今年，推动整个AI行业快速发展的Scaling Law也迎来了全新的变化：Agentic Scaling，"他说。他列出了三个关键指标：Agent的迭代深度、执行时长、协作数量。"现在主流Agent的协作数量是十几个到几十个，但很快会看到几百个甚至上千个。执行时长从天到周、月、年为单位。迭代深度也在快速增长"

蒋铭也补充了另一个角度：正是去年DeepSeek V3发布之后，更大规模模型的体验"没有那么好"，原因很可能就是Agent Coding这种新的应用方式还没有出现。"用过去对话和做题的标准，找不到继续发展的牵引。但今年不一样了——Coding重新开启，模型规模越大就能直接对Coding质量提升，Scaling有了结果标准去衡量、去推动。"

应用牵引模型，模型驱动算力，算力倒逼基础设施——这个飞轮已经转起来了。

在产品层面，华为昇腾384超节点目前由12个计算柜、4个总线柜组成，NPU间点对点双向带宽达784GB/s，做到带宽无收敛。蒋铭透露，昇腾8K超节点已在规划中，可支持1K节点并向8K演进。"企业采购硬件后，面对模型迭代升级，可以灵活拓展计算域范围来适配更大规模模型，保障投资价值。"

此外，蒋铭提到超节点架构还将支撑更多新型技术趋势：PD分离（Prefill-Decode分离，因二者算力配比不同）、KV Cache分离、以及科学计算的流转等，这些都需要高速总线来支持连接，将进一步推动超节点规模的扩大。

超节点的终极价值：让每一个Token更高效、更经济

如果把Token比作智能时代的"石油"，那么超节点就是"炼油厂"——它不生产Token，但决定了Token的生产效率和单位成本。

对话尾声，三位嘉宾分别用一句话为这场讨论收尾。

李建忠将视角聚焦于业务："奇点正在加速到来，智能体正在重构各行各业，所有从业者都要紧跟技术变革节奏，依托超节点创新技术，主动迎接奇点时代。"

汪锦想聚焦技术内核的兑现："超节点依托低时延互联总线技术，实现了全局统一寻址和内存语义化访问，让技术理念真正落地为商用现实。未来在规模、带宽、时延上会持续突破，支撑更大规模的算力协同，前景值得期待。"

蒋铭则把落点放在了每一个人的切身体验上："用超节点技术打破AI发展现存瓶颈，带给每个人最佳的人工智能体验，早日实现Token自由。"

奇点或许尚在路上。但当三位来自不同领域、不同立场的技术人，坐在一起得出同一个判断——算力基础设施的范式转移不是"要不要发生"的问题，而是"已经发生"的事实——这本身，就已经是答案。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

不是 NVIDIA 变成了昇腾，而是两者都在向同一个方向收敛：面向 Transformer 的专用数据流架构

是的，从“大模型专用计算”的方向看，NVIDIA 的 FP4/NVFP4 + Transformer Engine + TMA/WGMMA，确实越来越像昇腾这类 DSA/NPU 架构。这就是为什么 NVIDIA、昇腾、TPU、寒武纪、摩尔线程、沐曦都会越来越像。INT8 / FP16 / BF16 / FP8等路线，具体依平台。因为 FP4/NVFP4 已经不是“普通浮点计算”了。FP4 / NV

鲲鹏昇腾开发者社区

【昇腾实战派】技术洞察知识地图

本文是"昇腾实战派"技术文章合集的知识地图，收录了29篇涵盖多领域的技术文章，分为5个专题：1) DeepSeek模型系列，包括V3版本的多Token预测、模型结构解析等核心内容；2) 并行策略与分布式技术，深入分析FSDP、序列并行、ZeRO-3等关键技术；3) 模型架构基础概念，涉及FLOPs计算、GE图模式等；4) 多模态技术，聚焦MoE模型和多模态理解；5) 其他模型分析，包含风乌V2、G

鲲鹏昇腾开发者社区

AI风口真相：大爆发还没来，算力已经捉襟见肘了

【AI爆发前夜：算力危机与机遇并存】当前全球仅数百万人深度使用AI，却已导致算力严重短缺。尽管AI看似普及，但80%人口尚未接触，付费用户仅数千万。国内企业应把握三大关键：1. 个人用户需从免费转向付费，AI投入产出比远超人力成本；2. 企业级用户应选择国产大模型（如通义千问、阿里Qoder），兼顾性能与合规；3. 算力将是核心竞争力，提前布局才能抢占先机。目前AI仍处早期阶段，华为昇腾等国产芯片