当我们关注数据中心、超级计算机甚至芯片内部如何通信时,网络拓扑——即节点相互连接的结构——是决定整个系统性能、成本和可扩展性的核心要素之一。它就像城市的道路规划,决定了交通的顺畅与否。

        本文将深入浅出地介绍三种在高性能计算和数据中心领域至关重要的网络拓扑:nd-meshTorus 和 Clos,探讨它们的长相、特点与典型应用。

一、:规整与直观 nd-mesh(n维网格)

1.1. 结构

nd-mesh 的结构极为规整,如同一个 n 维的坐标网格。每个节点只与其在每一维上最近的邻居直接相连。

1D-Mesh

        就是一条简单的线,例如:
        节点A -- 节点B -- 节点C -- 节点D

2D-Mesh

        一个平面棋盘。每个节点通常与上、下、左、右四个邻居相连(边缘节点连接数少)。

A — B — C
|   |   |
D — E — F
|   |   |
G — H — I

3D-Mesh

         一个立体的魔方。每个节点与前、后、左、右、上、下六个邻居相连。

维度越高,每个节点的连接数(度数)越多,网络性能通常更好,但布线也越复杂。

1.2. 核心特点

优点

        结构简单、规则,易于设计和实现。

缺点

        非对称性

                位于网格中心和边缘的节点连接数不同,导致通信延迟不均。

        对分带宽低

                将网络对半切开时,连接两个部分的链路很少,容易成为性能瓶颈。

1.3. 应用场景举例

  1. 早期超级计算机   如 Intel Paragon,采用了 2D-Mesh 结构,因其在当时的技术条件下易于构建。

  2. 片上网络   在复杂的芯片系统(如多核CPU、AI加速器)内部,2D-Mesh 因其规整性,非常适合在硅片上布局,实现核心之间的高效通信。

  3. 入门级计算集群   在一些对成本和设计简单性要求较高的小型集群中,仍能看到它的身影。

二、现代数据中心的脊梁 Clos Network(叶脊网络)

2.1. 结构

        Clos 网络是一种多级交换架构,其最经典和常见的形态是三级 Spine-Leaf(叶脊)架构

        Leaf交换机(叶子层)

                位于底层,直接连接服务器、计算或存储设备。

        Spine交换机(脊层)

                位于顶层,不连接服务器,专门用于在 Leaf 交换机之间路由数据。

其最关键的设计原则是:每一个 Leaf 交换机都与每一个 Spine 交换机相连。 这就形成了一个全互联的“胖树”结构。

      (Spine Layer)
      S1      S2       S3
      /|\     /|\     /|\
     / | \   / | \   / | \
    /  |  \ /  |  \ /  |  \
(Leaf Layer)
  L1   L2   L3   L4   L5   L6
 / \  / \  / \  / \  / \  / \
Svr Svr Svr Svr ... ... ... ...

2.2. 核心特点

        1. 高对分带宽

                这是 Clos 网络最大的优势。任何两台服务器之间的通信都存在多条等价路径,网络核心没有阻塞,能提供极高的聚合带宽。

        2. 可扩展性极佳

                要扩大网络规模,只需增加 Spine 交换机的数量(横向扩展)或增加新的 Leaf-Spine 层。

        3. 低延迟与多路径

                任何两个 Leaf 之间仅需经过一个 Spine(即固定2跳),延迟可控且稳定。同时支持等价多路径路由,能充分利用所有链路。

        4. 无阻塞特性

                在设计合理(Spine数量足够)时,它可以支持所有服务器端口同时以线速通信。

2.3. 应用场景举例

  1. 现代云计算数据中心,是 Clos 网络最成功的应用领域。几乎所有大型云服务商(如 Google、AWS、Azure)和企业数据中心都采用 Spine-Leaf 架构来构建其底层网络,以支撑弹性、高并发的云服务。

  2. 超融合基础设施,HCI 环境需要大量的 east-west traffic(服务器间流量),Clos 架构的高对分带宽完美契合这一需求。

  3. 金融行业交易系统,对网络延迟和可靠性要求极高,Clos 架构提供的确定性与高性能是其关键保障。

三、对称与高效的HPC利器 Torus(环面拓扑)

3.1. 拓扑结构

        Torus 可以看作是 nd-mesh 的“增强版”。它在 Mesh 的基础上,将每一维的头尾节点连接起来,形成一个环。

        1D-Torus

                一个环。A -- B -- C -- D -- A

        2D-Torus

                在 2D-Mesh 的基础上,将最左与最右列、最上与最下行连接起来。这样,每个节点都拥有完全相同的连接数(4个),包括曾经的“角落”节点。

        3D-Torus

                在 3D-Mesh 的基础上,在 X, Y, Z 三个维度上都进行头尾连接,形成一个立体的环面,每个节点有 6个 连接。

3.2. 核心特点

优点

        1. 卓越的对称性

                这是 Torus 相对于 Mesh 的决胜点。所有节点在拓扑上是等价的,消除了网络中的“偏远地区”,通信延迟更均匀。

        2. 更低的网络直径

                得益于环绕链路,从网络一端到另一端的最大跳数比同等规模的 Mesh 更少。

       3.  更高的对分带宽和容错性

                切断网络需要断开更多的链路,意味着内在的带宽更高,且某条链路故障时,可通过环绕路径冗余传输。

        缺点

                物理布线比 Mesh 更复杂,需要处理“环绕”连接,可能涉及长距离线缆。

应用场景举例

  1. 顶级超级计算机

    • IBM Blue Gene/L & P,是 3D Torus 架构的标志性应用,其对称性和高带宽为大规模科学计算提供了强大支撑。

    • 富士通 Fugaku(富岳),曾登顶全球超算榜首,其互联架构“Tofu”是一种扩展的 6D Torus,提供了极高的灵活性与性能。

  2. 大规模计算集群     在需要运行紧密耦合模拟(如气候模型、流体动力学)的HPC集群中,Torus 能有效降低节点间的通信延迟。

四、总结与对比

为了更直观地比较,可以看下面的表格方式的对比:

特性 nd-mesh(n维网格) Clos Network(叶脊网络) Torus(环面)
核心形象 城市的街道网格 公司的汇报层级(全员互联) 魔方(每个面首尾相连)
对称性 好(逻辑对称) 极好(物理对称)
对分带宽 极高 中到高
扩展性 中等 极佳 中等
典型领域 早期超算、片上网络 现代数据中心/云 高性能计算
设计哲学 简单、规整、成本可控 无阻塞、高带宽、弹性扩展 均匀延迟、高容错、高效通信

选型思路

        选择哪种网络拓扑,是一场在性能、成本、复杂度和应用需求之间的权衡。

                当设计一颗复杂的芯片时,nd-mesh 的规整性可能是首选。

                当构建一个支撑弹性云服务的数据中心时,Clos 架构几乎是唯一的选择。

                当追逐科学计算的巅峰,建造下一台顶级超算时,Torus 及其变种所提供的对称性和高效能将是一件利器。

        理解这些拓扑的“长相”与内在特性,是设计和理解现代大规模计算系统的第一步。-

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐