奇点倒计时与算力新命题:一场超节点技术巅峰对话的全纪录
5月22日晚19点,2026年鲲鹏昇腾开发者大会(KADC)开幕首日,一场以"AI Agent浪潮下,定义AI算力基础设施,实现Token自由"为主题的技术巅峰对话在北京中关村国际创新中心举行,华为Fellow、计算架构与设计部部长蒋铭,奇点智能研究院院长、CSDN高级副总裁李建忠,科大讯飞内核技术部总监汪锦想三位嘉宾,围绕AI Agent的发展趋势、大模型的技术演进以及超节点架构的核心价值展开了
5月22日晚19点,2026年鲲鹏昇腾开发者大会(KADC)开幕首日,一场以"AI Agent浪潮下,定义AI算力基础设施,实现Token自由"为主题的技术巅峰对话在北京中关村国际创新中心举行,华为Fellow、计算架构与设计部部长蒋铭,奇点智能研究院院长、CSDN高级副总裁李建忠,科大讯飞内核技术部总监汪锦想三位嘉宾,围绕AI Agent的发展趋势、大模型的技术演进以及超节点架构的核心价值展开了深入对话。

当前,Agent 正在重构整个软件产业,Token 消耗呈指数级增长,传统的 Scale Out 集群架构已经走到了物理极限。三位嘉宾从技术趋势、产业实践和架构创新三个维度,清晰地论证了一个核心判断:超节点不是对传统架构的修补,而是一场算力范式革命,是支撑Agentic AI时代的最优解。
奇点倒计时:Agent正在重构整个软件产业
所有技术变革的起点,都是需求的爆发。本次对话的第一个共识是:AI Agent已经从概念走向现实,正在以超出所有人预期的速度重塑软件产业的形态和开发方式。
- 技术奇点已进入倒计时,指数级增长成为行业共识
蒋铭在开场中引述了两个近期信号。一是Anthropic联合创始人Jack Clark在5月4日预言,2028年Agent有60%的概率进入自主进化阶段;二是赫拉利在2026年初的达沃斯论坛上宣告,技术奇点可能在2030年前后到来。
李建忠结合技术史的发展,介绍了“连接”与“计算”的技术钟摆效应:第一次连接革命发生在1840~1940年间,代表技术是电报、电话、广播、电视;接着是1940~1990年间的计算革命,代表技术是大型机、小型机、PC;然后是1990~2015年之间的第二次连接革命,代表技术是互联网、移动互联网、云计算;再之后是2016年至今的第二次计算革命,也就是人工智能,以Transformer、大语言模型为标志。从时间尺度来看,连接革命与计算革命交替进行,且大约以100年、50年、25年的指数级加速呈现。 依此预测,AGI的奇点大约时间即为2030年左右。
李建忠强调"奇点临近的这种指数级加速度,特别是2026年在Agent和AI Coding方面的爆发,让全行业都感受到非常强烈的推背感"——即AI技术的飞速发展对产业生态的倒逼式冲击。
汪锦想则从一线研发的视角描述了这种非线性加速的切身感受:"AI这个东西好像离我们很远,但它的速度不是线性的。它好像是迷雾中的东西,当你听到声音的时候,真正发现时可能已经到眼前了。"
- AI Coding 爆发,软件产业正在经历双轮驱动变革
这种指数级增长最直观的体现,就是 AI Coding 领域的爆发。
2025年5月发布的Claude Code ,半年后ARR突破10亿美元,到2026年5月预计达到100亿美元——成为企业软件史上增长最快的产品。公司估值从2025年3月的615亿美元飙升至2026年5月的9000亿乃至12000亿美元。
"这个产品是我个人认知转变的一个缩影,"蒋铭坦言,"我是一个老程序员,去年年初用AI编程时觉得它只能做辅助级的工作。但今年初用了Claude之后完全转变了——代码写得太快了,我根本看不过来。它会自动做单元测试,自己写错了还会根据报错自行修正,多轮迭代后满足新的要求。"
汪锦想从需求侧解释了这种爆发的深层逻辑:"以前软件是奢侈品,现在变成了很普通的东西。原来不会写代码的人也能做出初步原型。需求量非常大,大家看到了震撼的场景应用之后,这个增长速度和需求量,对Token的消耗就非常大。"
李建忠则将这场变革概括为一个更具穿透力的框架——"Agent时代双轮驱动的软件范式变化"。
首先是软件应用形态的变化,越来越多的软件被Agent取代,部分软件变成Agent的下游工具。 深层次来看,这是基于冯·诺依曼架构的确定性计算,在向基于神经网络的非确定性计算的范式迁移。"
与此同时,软件开发方式也在快速变化:Agent正在成为软件开发的主力,在软件开发流程的各个环节发挥重要作用。程序员则从Programmer向Builder角色转化。双轮驱动加乘之后的范式变革是颠覆式的,"你做的东西变了,你做事的方法也变了。"
他将AI Coding的冲击力类比为"推土机"——一层一层把传统软件铲掉。"SaaS软件去年的收入并没有降很多,但估值体系几乎崩塌了。因为大家看到了Agent对它的颠覆级作用。"
Claude Code不是一家公司的胜利,而是一个信号:Token正在从对话消耗品变成生产力要素。而生产力要素的大规模需求,离不开基础设施的支撑。
算力瓶颈不在算力本身,而在"访存比"
要理解为什么需要超节点,首先要理解大模型推理的核心瓶颈在哪里。
- AI 计算的本质矛盾是算力与访存的失衡
蒋铭用第一性原理做了一个简洁的解释。
"AI计算本质上是并行计算系统。在局部进行比特翻转、晶体管的状态变化,效率很高。但在长链路上进行数据搬移,非常困难。"他说,"这导致所有并行计算系统都面临一个核心指标——算力访存比:一个数据读进来,需要处理多少次才能把算力充分发挥出来。"
矛盾恰恰出在超长序列推理上。以DeepSeek V3为例,单条1M长序列的KV Cache需要约35GB内存空间,一张卡的内存不过一两百GB,能支持的批次大小仅5到6条。批次上不去,算力利用率就低,推理成本就高。
"这就是Token昂贵的来源。"蒋铭说。Claude Code的API输出定价为每百万Token 25美元,Fast Mode高达150美元——而DeepSeek V4的同等输出仅6元人民币,差距高达30倍。蒋铭指出,这种价格差异背后是模型架构创新的差异:DeepSeek V4的超稀疏MoE架构,使实际算力消耗大幅降低,但能力因参数规模依然很强。
- MoE 模型将瓶颈从算力转向访存
然而,超稀疏MoE带来了新的挑战——主要瓶颈从算力转向了访存。假设所有专家放在一张卡上,批次为64时会产生384个专家处理请求,需要读取约1.5TB参数,但每个数据只计算两次,违背了高算力访存比原则。
解决这个问题的业界通用方案是专家并行(EP)—— 将专家分散到更多卡上,每张卡存放尽可能少的专家。极限情况下,每张卡放一个专家,读一次参数可以计算多次,算力访存比大幅提升。但 EP 并行的效果高度依赖互联质量。蒋铭以华为自身产品为例做了对比:"传统以太网集群也可以做 EP 并行,但同样并行规模下,性能与超节点相比差距达 2.5 到 3 倍。通过专家并行获得的访存效率提升收益,会被以太网的通信代价全部吃掉。"
汪锦想从解码环节的技术特性做了更深层的剖析。他指出了一个关键事实:解码是一个无法掩盖通信开销的串行过程。
"通讯的时候就做通讯,通讯完了再做专家计算,计算完再做后续运算。相互之间都没有办法掩盖。"他说,"一旦通信不能隐藏,开销就全部暴露出来。"在训练阶段,通信开销可以通过计算任务穿插来部分掩盖。但解码不行——它是逐token生成的严格串行过程,每一次通信都是硬等待。"按照我们的实践,这种不可隐藏的通信,你通过其他维度去调优会付出很大代价——增加复杂度,出错概率也增多。"汪锦想的结论是,"最好的办法还是把时延降低和把带宽提升上去。说到底,还是要靠顶尖的互联技术把不可隐藏的通信延迟降下来。这是最硬核的技术。"
这也就解释了超节点为何成为大模型推理的关键底座——它不是一个"锦上添花"的性能优化,而是专家并行能否成立的前提条件。没有足够快的互联,EP并行的收益会被抵消,大模型推理就只能停留在昂贵的低效状态。
超节点的本质不是"更多卡",而是"一台计算机"
那么,超节点究竟是什么?它和传统集群有什么本质区别?
超节点是"物理上由多个计算单元通过高效互联协议紧密连接,逻辑上具备一台计算机特征的Scale Up计算系统"。
它和传统集群最核心的区别,不是简单的多设备堆叠,而是打破了节点边界——核心依托灵衢互联技术,构建了两大核心能力:
- 全局统一的内存地址空间。 传统集群中,每个节点拥有独立的地址空间,跨节点通信需要软件编码、协议传输。而在超节点架构下,所有NPU和CPU共享一个全局单一虚拟地址空间,可以直接用虚拟地址访问任意位置——无需改代码、无需路由、无需拷贝,直接通过load/store指令完成数据访问。
- 内存语义跨节点访问。 超节点的通信不是由显性的"通信原语"触发的,而是由处理器微内核的load/store微指令直接发起,在纳秒级触发总线上的数据交互。正如蒋铭所解释的:"汇编语言最基础的指令就是load/store,这些微指令直接触发总线操作,转化为通信行为。指令周期在纳秒级,一个指令就能完成一次通信调度。"
汪锦想从昇腾架构的实际落地角度做了补充:"基于灵衢互联和总线控制器,AIC/AIV通过MTE指令访存远端,无拷贝。512B小包读写对比消息语义,时延下降59%。全局单一虚拟地址空间,NPU/CPU直接用虚拟地址访问任意位置,无需改代码、无需路由、无需拷贝,直接load/store。KV Cache全局共享、超长上下文无缝扩展。"
这两项核心能力,使超节点不再是传统意义上的集群,而是一台真正意义上的"超级计算机"。
当然,将数百个计算单元整合为"一台计算机"并非没有代价。蒋铭坦诚地讨论了技术挑战:"以太网丢包是常见现象,依靠握手协议保障数据完整。但超节点架构无法依靠处理器处理这类校验工作,耗时太大。容错、拥塞、反压等防护机制都必须在硬件总线层面实现,技术难度很高。"
正是这些底层创新的难度,构成了超节点的技术壁垒。
超节点的规模为什么必须持续扩大?因为模型的Scaling Law没有停下
超节点的规模演进,不是厂商的军备竞赛,而是模型发展规律的客观要求。
汪锦想从模型发展的视角分析了这一趋势:"从几B模型到100B,再到MOE架构的300B,现在是多T的规模。这种扩大对智能提升是有的,但受限于AI Infra的工程能力。工程能力越强,承载的模型尺寸就越大。"他进一步指出,专家数的演进路径已经清晰——"现在是200、300、400个,未来有可能增加到1000多个。"
李建忠则提出了一个更具前瞻性的维度——Agentic Scaling。"从去年到今年,推动整个AI行业快速发展的Scaling Law也迎来了全新的变化:Agentic Scaling,"他说。他列出了三个关键指标:Agent的迭代深度、执行时长、协作数量。"现在主流Agent的协作数量是十几个到几十个,但很快会看到几百个甚至上千个。执行时长从天到周、月、年为单位。迭代深度也在快速增长"
蒋铭也补充了另一个角度:正是去年DeepSeek V3发布之后,更大规模模型的体验"没有那么好",原因很可能就是Agent Coding这种新的应用方式还没有出现。"用过去对话和做题的标准,找不到继续发展的牵引。但今年不一样了——Coding重新开启,模型规模越大就能直接对Coding质量提升,Scaling有了结果标准去衡量、去推动。"
应用牵引模型,模型驱动算力,算力倒逼基础设施——这个飞轮已经转起来了。
在产品层面,华为昇腾384超节点目前由12个计算柜、4个总线柜组成,NPU间点对点双向带宽达784GB/s,做到带宽无收敛。蒋铭透露,昇腾8K超节点已在规划中,可支持1K节点并向8K演进。"企业采购硬件后,面对模型迭代升级,可以灵活拓展计算域范围来适配更大规模模型,保障投资价值。"
此外,蒋铭提到超节点架构还将支撑更多新型技术趋势:PD分离(Prefill-Decode分离,因二者算力配比不同)、KV Cache分离、以及科学计算的流转等,这些都需要高速总线来支持连接,将进一步推动超节点规模的扩大。
超节点的终极价值:让每一个Token更高效、更经济
如果把Token比作智能时代的"石油",那么超节点就是"炼油厂"——它不生产Token,但决定了Token的生产效率和单位成本。
对话尾声,三位嘉宾分别用一句话为这场讨论收尾。
李建忠将视角聚焦于业务:"奇点正在加速到来,智能体正在重构各行各业,所有从业者都要紧跟技术变革节奏,依托超节点创新技术,主动迎接奇点时代。"
汪锦想聚焦技术内核的兑现:"超节点依托低时延互联总线技术,实现了全局统一寻址和内存语义化访问,让技术理念真正落地为商用现实。未来在规模、带宽、时延上会持续突破,支撑更大规模的算力协同,前景值得期待。"
蒋铭则把落点放在了每一个人的切身体验上:"用超节点技术打破AI发展现存瓶颈,带给每个人最佳的人工智能体验,早日实现Token自由。"
奇点或许尚在路上。但当三位来自不同领域、不同立场的技术人,坐在一起得出同一个判断——算力基础设施的范式转移不是"要不要发生"的问题,而是"已经发生"的事实——这本身,就已经是答案。
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐
所有评论(0)