分享一篇智算中心建设技术方案

转载连接:https://zhuanlan.zhihu.com/p/1793625761

文章目录


第1章 项目概述

1.1 项目背景

作为数字经济发展的核心生产力,算力发挥着日益重要的作用,成为国民经济发展的重要基础设施。随着云计算技术水平发展,AI、5G、物联网技术的成熟和推广,智慧政务、智慧能源、智慧金融、生物医药、工业仿真、无人驾驶、航空遥感等应用场景的高性能计算需求越来越多。全社会数据总量爆发式增长,数据资源存储、计算和应用需求大幅提升,对算力需求的年增速更是预计高达20%以上。

2023年2月中共中央、国务院《数字中国建设整体布局规划》提出推动智能计算中心有序发展,打造智能算力和开发平台一体化的新型智能基础设施。

2024年2月国务院、国资委召开“AI赋能产业焕新”推介会,强调加快建设一批智能算力中心。

2024年3月河南省政府《河南省加快制造业“六新”突破实施方案》统筹布局算力基础设施,加快建设新型数据中心、建设智算超算设施,支持郑州、洛阳市打造智能计算中心,鼓励各地按需建设智算中心。

智算中心的建设将极大地降低计算的应用成本,提升了资源的利用效率,促进经济、社会全面数字化转型升级,促进区域协调发展,进一步畅通数据要素流通应用。

1.2 需求分析

在过去,算力的主要作用是支撑移动互联网和企业数字化的应用,以传统应用和云原生应用为主。企业应用的核心是以CPU为主,并且大多是延迟敏感的。因此,许多数据中心以及以CPU为主的算力中心都部署在沿海经济发达的城市。

随着AI和大模型的出现,未来10年,应用、需求及其底层架构也将发生巨大的变化。新型业务形态将与过去截然不同,以人工智能和数字化转型为主导,新的业务形态将以GPU为主,涉及训练与推理,既有成本敏感型,又有延迟敏感型,整个算力中心的部署将更加分散。

未来的算力需求不仅需要支持传统应用和云原生应用,还需要支持快速增长的AI应用。在这个全新的时代,需要更加智能、高效的算力支持,以满足不断变化的市场需求。

但是,智算中心的建设与应用依然面临着许多挑战和问题。

挑战:

智算中心投资巨大,能否盈利取决于运营效率与平台能力。

相比于投资与建设,运营智算中心更加专业和复杂。

由于数据的隐私性和属地性,智算中心建设分散,运营能力参差不齐。

支持业务的多样性,决定了要面对极其复杂和现实的技术问题。

问题:

投资阶段智算中心的设计和规划如何考量?

超算、智算、云计算等多元算力如何统一调度?

传统应用、云原生应用、AI应用如何同时兼顾?

如何支持异构CPU/GPU,如何提供高效网络与存储?

大规模智算中心如何高效的运维和运营?

1.2.1 人工智能产业发展需求

根据工信部发布的《算力基础设施高质量发展行动计划》(工信部联通信〔2023〕180号)计划,到2025年,算力规模超过300EFLOPS,智算算力占比达到35%。根据IDC联合浪潮信息发布的《2022-2023中国人工智能计算力发展评估报告》,中国人工智能计算力保持快速增长,2022年智能算力规模达到268百亿亿次/秒(EFLOPS),超过通用算力规模。预计未来5年中国智能算力规模的年复合增长率将达52.3%。

人工智能作为数字经济时代的核心生产力,在各地积极布局数字经济的趋势下迎来了飞速发展。《国务院关于印发新一代人工智能发展规划的通知》(国发〔2017〕35号)提出要“推进人工智能理论、技术与应用;到2025年,人工智能核心产业规模超过4,000亿元,带动相关产业规模超过5万亿元;到2030年,人工智能核心产业规模超过1万亿元,带动相关产业规模超过10万亿元”。预计2020年至2030年我国人工智能核心产业规模的年均复合增长率达20.9%、带动相关产业规模的年均复合增长率达25.9%。

图片描述
图1-1人工智能核心产业规模与带动相关产业规模

经研究测算,保守估计,“十四五”期间,在智算中心实现80%应用水平的情况下,城市/地区对智算中心的投资可带动人工智能核心产业增长约2.9-3.4倍、带动相关产业增长约36-42倍。

有统计表明,AI模型训练所需的算力平均100天就会翻番,这意味着对算力的需求每隔5年要翻十万倍以上。显而易见,人工智能发展速度越快,潜在的算力缺口就越大。

1.2.2 人工智能产业应用场景需求

据科技部统计预计,当前我国人工智能核心产业规模超过4000亿元,企业数量超过3000家。智能芯片、开源框架等关键核心技术取得重要突破,智能芯片、终端、机器人等标志性产品的创新能力持续增强。我国传统行业转型升级不断加速,培育成长出一批传统行业+AI的典型企业,推广应用一批智能化升级的典型案例,形成AI与实体经济融合的新模式、新方法。智能制造领域,智能技术的应用极大提升了产品检测效率和设备利用效率。

人工智能产业的蓬勃发展为智算中心的建设和发展提供了巨大的机遇。智算中心作为AI软硬件技术的一体化融合载体,将为AI产业的发展提供大规模数据处理和高性能智能计算支撑,加速图像识别、自然语言处理、大规模知识图谱等技术的研发、测试和应用部署进程。智能计算中心的构建将推动“平台+应用+人才”三位一体的新型AI产业发展模式,打造“算力+生态”体系,将加速AI全产业链的形成。AI产业化的主要应用场景包括:识别检测、语音交互、AI芯片、自动驾驶、机器人、视频解析、人机协同、机器翻译、精准推荐等。

数据洪流与智能化正以前所未有的速度重塑各行各业,人工智能深度渗透重点行业领域,AI应用场景呈现出多元化、规模化发展趋势。据相关机构预测,AI赋能全社会各行业领域发展形成的“AI+产业”有着万亿级市场规模,远大于AI产业化千亿级市场规模。智算中心作为新型基础设施成为企业低成本、高效率数字化转型的重要抓手。企业可以根据业务需要依托智算中心提供的AI模型库、AI算力调度平台等自动生成适用于实际需要的业务系统模型。同时,智算中心通过提供算力基础设施及通用软件服务,联动产业链上下游,为企业提供完整的AI服务链,帮助实现AI供给和需求的高效对接,促进产业高质量、智能化发展。产业AI化的主要应用场景包括:智能制造、医疗影像、无人商店、智能客服、智慧物流、智慧农林、无人巡检、智慧教育等。

应用场景1:识别检测

识别检测通常包括图像分类、目标定位跟踪、对象检测和对象分割等。近年来,由于深度学习技术的突破性发展,使得识别检测的表现性能有了大幅提升,对于图像分类等识别检测任务,基于多层神经网络训练后形成的模型已经能够超越人类的识别能力。识别检测正逐渐从先进技术发展成为成熟产业,被广泛应用于政府、银行、医疗、社会福利保障和电子商务等领域。尽管取得了巨大成功,但识别检测技术仍然面临着很多挑战,需要人们不断开发更加先进的学习算法,提高模型生成和测试效率,以适应不断变化和更加复杂的应用场景对识别能力的需求。

应用场景2:语音交互

语音交互是一个包括了语音识别、自然语言处理和语音合成的融合性AI技术。语音识别技术将声音转化成文字,自然语言处理技术对文字进行解释,语音合成技术将输出信息转化成声音。目前,常用的社交软件输入法、搜索工具、语音指令控制、新闻阅读推荐和智能客服等领域都在应用语音交互技术。然而,作为极具挑战性的AI技术之一,语音交互技术自身面临着语音识别、语义分析和多轮对话等技术难点,语音交互的工程实现需要融合使用先进的隐马尔可夫模型、深度学习和先进的语音信号处理等技术,以及强大的训练数据存储、计算和处理能力。

应用场景3:自动驾驶

自动驾驶作为AI产业化的典型代表,近年来得到广泛的关注。由自动驾驶技术的特性可知,其开发部署需要人工智能硬件架构提供高性能的AI算力支持,需要深度学习等高级AI算法和模型的快速构建来支撑“自动驾驶”技术和功能实现,需要智能计算平台与操作系统、虚拟仿真试验平台等软硬件平台紧密协作。从自动驾驶产业链发展的角度看,位于产业链中游的整车生产等关键环节还需要建设智能化网联驾驶测试与评价平台(智能汽车风洞测试实验室)和自动驾驶模拟仿真测试服务平台等关键平台来有效支撑自动驾驶产业链的完善和升级。

应用场景4:机器人

机器人产业更需要人工智能技术的全面赋能。机器人包括工业机器人、特种机器人和服务机器人。机器人在安全风险较大的电力、交通和能源等领域的应用十分广泛。智能电力巡检机器人集探测器、无轨化激光导航定位、红外测温、智能读表、图像识别等技术于一体,对输变电设备进行全天候巡检、数据采集、视频监控、温湿度测量和气压监测等,提高输变电站内设备的安全运行程度。

应用场景5:智能制造

智能制造是基于新一代信息通信技术与先进制造技术深度融合,贯穿于设计、生产、管理、服务到制造活动的各个环节,具有自感知、自学习、自决策、自执行、自适应等功能的新型生产方式。制造业迫切需要采用人工智能技术作为产业革新的重要抓手,其中,质检分拣作为工业最关键的环节,其AI化的改变一直被寄予厚望。长期以来,传统工业质检面临两大痛点,即传统的检测手段效率低下,产品质量无法保障,且因工作枯燥、人口红利消失,人工质检存在“用工难”现象。因此越来越多的工厂开始使用机器视觉技术代替人工产品质量检测。基于人工智能深度学习算法的智能质检设备是由数据驱动的、自发的机器学习,通过图像处理算法快速识别产品表面存在缺陷的不良品,并结合产线自动化,实现精准归类。与传统视觉技术在识别不规则缺陷方面的不足相比,随着数据量的增加,人工智能检测的准确性将继续优化,实现对生产质量数据的完全控制,并为过程优化和过程提供关键数据支持。

应用场景6:医疗影像

应用人工智能技术,参与疾病的筛查和预测,从医疗影像检查结果中进行判断以获取诊断信息,辅助CT影像识别、颈椎病症识别、癌症识别等场景应用。新冠肺炎疫情的暴发加速暴露了当前医疗体系中存在的问题。在人工智能时代,传统算力设施已无法支撑对于大量医疗影像进行机器自主学习、快速判断结果的需求。为了更好地应对公共卫生突发事件,让检查更加便捷、迅速,从而提供更高质量的医疗服务,需要应用智能计算中心的算法算力,对多层神经网络的模型进行训练,通过测试影像数据确定真实的特征目标,实现高准确度的分类诊断,提高诊断速度与工作效率。

应用场景7:无人商店

目前中国零售业正在呈现线上线下融合发展、新业态新模式不断涌现的发展趋势,以无人商店为代表的智慧零售新业态越来越受欢迎。无人商店主要应用人工智能卷积神经网络、深度学习、机器视觉以及生物识别等人工智能领域前沿技术,可实现扫码进店、直接购物、自动结账、离店后付款等无人店全智能化操作。利用深度学习的神经网络,无人商店可以记录每个客户的消费习惯,甚至抓取用户信息,实现“人店对话”。利用机器视觉技术、生物识别技术可以识别消费者身份。通过机器视觉、射频技术、多路摄像头和传感器能够精准识别商品、捕捉消费者运动轨迹和消费行为。但是随着店铺面积增大、人流量增多,无人商店需要更强大的计算能力、更精准的识别要求,无人商店行业迫切需要在新型智能化算力基础设施的支撑下快速兑现对整个行业的变革和引领。

应用场景8:智能客服

智能客服即通过运用智能化的语音识别技术、自然语言处理技术、知识库管理技术、语音合成技术,更好地帮助客户分析问题,通过人声模拟或文字给予用户明确的答复或相应的建议。传统的客户服务中心以电话呼叫中心为主,随着人工智能技术的不断成熟与用人成本的逐步提高,更多政企部门加大了对智能呼叫中心的投资规模,积极拓展更加经济高效的智能客户服务渠道,如在线客服等,应用以领域知识库建设为核心,通过文本或语音等方式交互的智能客服机器人系统,有效整合了多渠道的客户服务中心,能够大幅缩减客服成本、增强用户体验,从而提升服务的质量和企业创新的品牌形象。

应用场景9:智慧物流

2020年的新冠肺炎迫使许多工厂被迫停工,令无数企业意识到无人化或人机协同生产线的重要性。在新基建大背景下,智慧物流将成为我国促进经济发展内循环的有力抓手。2020年可以定义为“AI+物流”的元年,智慧物流盛宴刚刚启幕。电商巨头、初创公司和传统企业纷纷布局,抢占物流行业巨大市场份额。如何帮助物流企业快速研发和生产智慧物流解决方案和技术产品与服务,已经成为众多企业面临的直接挑战。这需要智能计算中心提供高效算力支撑中小微企业、初创高科技公司和AI技术公司快速研发更加先进和智能化的物流机器人技术、产品,降低企业进入智慧物流行业的门槛,进一步促进智慧物流生态体系构建,不断优化物流工作效率。

应用场景10:智慧农林

农业智慧化转型升级是实现我国经济高质量发展的重要内容,人工智能技术可以全面赋能农林业生产、助力生态防治。农业种植方面,通过深度学习算法分析农作物高清图像,可以实现大规模、低成本、自动化的病虫害识别及监测预警。林业生态防护方面,利用无人机、智能图像识别等技术和高速的数据处理能力,监控、分析、处理大量实时数据,在林草火灾防治、林草有害生物防治、沙尘暴防治、野生动植物疫源疫病监测防控等领域能够实现智能监测、智能预警和智能防控。农业养殖方面,高清监控系统配合图像识别技术对畜禽进行面部和行为识别,可以自动分辨畜禽情绪、进食状态和健康情况,及时反馈给养殖户并提供养殖建议。大数据配合人工智能技术可以实现鱼群数据的精准预测,自动定位捕捞,提高捕捞准确率,并有效防范过度捕捞现象,促进海洋资源的可持续发展。

1.2.3 河南人工智能产业市场需求

河南是人口和农业第一大省,工业产值全国第五,是相应的数据资源和信息消费大省,在农业、制造、医疗、材料、物流等领域形成了大数据资源的世界级规模优势,具备发展大数据智能的数据资源基础。河南作为工业和制造大省,传统制造产业面临转型升级的巨大压力。郑洛新国家自主创新区建设已将智能制造和军民融合作为主要发展方向;“智能制造2025”战略也为新一代人工智能提供了与实体经济深度融合的重要发展机遇;智慧城市建设和城市化进程存在向更高水平发展的重大需求,新一代人工智能能为以上需求提供高水平学科方向的支撑和引领。同时,国家超算郑州平台的计算性能目前处于国内前五领先水平,位居高校计算中心首位,可为新一代人工智能学科方向提供坚实的基础支撑条件。

近年来,河南省人工智能与传统产业加速融合,涌现出智能制造、智能物流、智能政务、智能农业等一批新兴业态。智能制造方面,仅郑州市即拥有3个国家级智能制造企业,9个获得国家级资金支持项目,省级标杆企业44个。智能制造方面,金惠计算机基于机器视觉的工业制品表面智能在线检测项目入选工信部首批“人工智能和实体经济深度融合创新专项”;富士康科技集团、海尔郑州等企业基于人工智能技术实现了生产制造过程全自动化、智能化。智能物流方面,郑州国际陆港、河南保税物流中心等单位,利用人工智能技术,开展了郑欧班列“一干三支”铁海公多式联运、跨境电子商务综合服务等。社会治理和智能政务方面,全面启动了城市大脑建设,基本构建了“一脑赋城、一网治城、一码通城、一端惠城”的格局,探索形成了政务服务与社会治理“一网统筹、一体化建设、一个底座、一个数据库”的全国具有独创性的城市治理模式。智能农业方面,农业生产管理、农业设备、农产品加工等智能化水平不断提升,为全省农业种植、生产、加工智能化提供了强有力的技术支撑。

河南省有数百家企业开展人工智能相关业务,涉及智能网联汽车、智能机器人、智能传感器等智能产品,以及智能环保、智能医疗、智能教育等解决方案。初步形成了以宇通客车、郑州煤机、中铁装备、汉威科技等郑州本地龙头企业为引领,众多中小微企业蓬勃发展的格局。近年来,阿里巴巴、海康威视、中国电子、紫光集团、华为、浪潮、大华、新华三等企业和研究机构相继落户郑州,有力地促进了人工智能产业发展。2019年郑州市人工智能核心产业规模达到100亿元,人工智能相关产业规模超过300亿元。

1.2.4 郑州市人工智能需求

郑州市人工智能产业在高新区、金水区、经开区、航空港区和郑东新区已初步形成集聚发展态势,核心企业近100家,关联企业近千家,初步形成了大型龙头企业为引领,众多中小微企业蓬勃发展的格局。2020年人工智能企业核心业务收入超过100亿元,智能制造、信息安全、5G及北斗等关联产业规模超过300亿元。重点高等院校和科研院所在人工智能领域具有较强的研发能力和人才培养能力,郑州大学建有计算机与人工智能学院、河南省机器人感知与控制工程实验室、河南省脑科学与脑机接口技术重点实验室;信息工程大学建有数学工程与先进计算国家重点实验室、计算机病毒防御技术国家工程实验室等一批科技创新平台,为郑州市人工智能理论和技术创新及产业发展提供强大支撑。一批院所和企业快速成长,在智能网联汽车、智能传感器、智能语音识别、自然语言处理、计算机视觉等领域,突破了一些关键核心技术。人工智能与传统产业加速融合,涌现出蓬勃发展态势。研发应用的智能厂务管理平台、大数据+AI平台、智能化工厂平台,推动传统制造向智能制造转型;3家企业成为国家级智能制造企业,4家企业成为省级智能制造标杆企业。智能化仓库改造需求不断增加、AGV小车渗透率逐步提高。人工智能技术已迅速渗透到制造、交通、教育、农业、政务、医疗、金融等各方面,形成了一批具有示范引领作用的典型应用场景,税控市场智能终端设备全国排名前三,市场占有率达20%。

人工智能产业的蓬勃发展,对AI算力提出了巨大的需求,郑州市的人工智能企业飞速发展,这些企业亟待得到人工智能计算中心的算力支撑,未来两到三年,郑州市的人工智能算力需求保守预估在1000P以上。

1.3 项目建设目标

1.3.1 打造多元算力的数据中心

早在2020年“新基建”提出时,通过研究相关政策和行业需求,已经看到对多元算力的需求,投入了相应的力量做产品迭代与解决方案完善。技术作为最为重要的抓手之一,在“东数西算”中也不例外。

技术能力为云平台、智算平台、高性能计算平台、AI计算平台,海量存储平台提供了全面的技术支撑,相关产品及解决方案此前已经在多个政府项目中落地实践。

智算平台以融合架构计算系统为平台,利用云计算技术为算力中心赋能,一站式提供多种算力服务和行业应用交付平台,如高性能计算云服务、行业应用交付平台(如工业仿真、生命科学、勘探气象等)、人工智能算力服务、通用云平台服务、统一运营平台等。

以数据为资源、以应用为链接、以多元算力驱动行业应用和计算模型对数据进行深度加工,源源不断产生各种智慧计算服务,集成各场景业务软件,通过统一的应用商店,支撑各行各业应用场景。

1.3.2 统一运营运维解决异构难题

立足技术能力,致力于提供更符合时代需求的企业级云服务。在多数据中心的算力、网络、数据、能源等协同联动的过程中,必然会面对大量异构、跨平台的算力资源,如果无法形成统一的算力服务,使用者的运维成本极高。

智算平台解决方案通过科学合理的顶层设计,统筹调度多数据中心算力需求与供给,并交付统一的运营运维服务。

除了坚持核心代码自研,一直强调软件定义,无论是软件定义网络还是分布式存储,都不依赖于特定的硬件,同时积极探索物联网、边缘计算、分布式云等技术领域,通过云网边端的一体化来建设数字化底座。同时,端到端的云原生服务能力,使得应用与资源的统一调度管理都更便捷、更高效。

基于虚拟化、容器等技术实现对算力与底层基础设施的解耦,通过统一的云操作系统对底层资源进行纳管和协同编排,智算平台可以实现对多种主流的CPU、GPU、NPU、FPGA等异构算力的统一分配和调度,并且具备将异构算力统一封装提供服务的能力。

1.3.3 绿色数据中心落地“双碳”目标

“东数西算”工程关注数据中心的绿色之路,是实现数据中心“双碳”目标的关键举措。不提算力之上的大数据、AI等技术能带来的交通、建筑等行业的碳排放降低,单是数据中心建设在西部,就能提高对光伏、风电这些绿色能源的利用率,更不要说已经在积极实践的绿色数据中心。可以说,“东数西算”进一步引导了数据中心集约化、规模化、绿色化发展,对数据中心的能耗、平均利用率提出了更高要求。

发挥所擅长的场景抽象能力、平台技术架构设计能力,再以全生命周期的智慧化管理方法落地绿色数据中心建设,围绕IDC设施管理、能耗与动环管理、智慧运维、智慧运营四大板块,建设“统一管理、智能联动、流程规范”的开放能力平台,可管控IT设备、配件及耗材、系统与应用、机房基础设施、人员与组织5大分类的近百种资产,以“平台+插件”的模式来实现复杂场景,实现智算中心的智慧化赋能,从硬件和软件、技术和管理多个层面促进数据中心能效提升,推动数据中心行业的数字化建设与运维水平提升,迈向“双碳”目标。

1.3.4 自主创新服务数字经济

“东数西算”工程是对坚持新发展理念、构建新发展格局的贯彻落实,将为我国数字产业化和产业数字化发展打好坚实底座,既可支撑数字社会、数字政府建设,提升公共服务、社会治理等数字化智能化水平,又能推动数据资源交易流通和开发利用,为数据资源充分发挥价值奠定基础,从而实现数字经济发展质量变革、效率变革、动力变革。

作为承载科研科创、政务及行业应用的算力平台,底层安全可靠的重要性不言而喻。不仅坚持核心代码自研,更积极与包括芯片、操作系统、中间件等网信产业上下游展开全面适配,从技术层面有效保证自主中立、安全可靠,实现广度与深度上的飞跃。

“东数西算”需要在各个环节、各个技术领域的企业一起努力,在网络加速、传输压缩优化算法、算力调度等方面进行技术创新,根据自身经验和技术能力,加强投入与合作,深入服务数字经济。

长远来看,“东数西算”工程或许只是数字化建设全国布局的开始。始终践行中国科技服务数字中国,以极高效率、极低成本,支撑全场景数字化创新。

第2章 技术方案

2.1 总体方案

2.1.1 总体架构

总体架构
图2-1智算中心总体架构图

智算平台向下接驳多样性的算力,向上支撑行业应用,作为多元算力操作系统,主要提供四个方面的平台能力:一是算力生产供应平台,包括标准云平台算力服务、高性能计算服务、物联网和边缘计算能力、AI算力能力等;二是数据开放共享平台,利用大数据工作台来支撑企业数据在生产、采集、计算上的服务要求;三是智能生态建设平台,提供开放的应用框架,云原生应用、AI应用、行业专属应用等都可以通过该框架云化,形成PaaS或SaaS丰富应用生态;四是产业创新开发平台,以低代码开发平台、DevOps流程开发平台、API聚合及Serverless等技术能力,为业务流程重塑和业务场景迭代提供有力的工具。

这四个平台相互依存,依托在云计算、物联网、边缘计算、软件快速开发迭代等领域的探索与积累,以及帮助企业进行流程数字化和过程智能化的经验,通过对开放标准的支持,将相关技术能力向智能制造、智慧医疗、金融科技等不同行业落地。智算平台的核心代码都由自主研发,在确保高可靠性的同时,实现了对信创平台的完整支持。随着“东数西算”工程进一步深化,智算平台必然会延展出更多技术和应用的场景。

2.1.2 物理架构

针对本项目的智算中心建设,基于以下关键特性和性能进行建设:

GPU架构:基于NVIDIA的Hopper架构系列GPU进行建设和规划;针对本项目2000P的算力建设目标,结合单张H100提供1000TFlops(通常以FP16下稀疏运算性能为2000TFlops用于核算整个数据中心算力能力指标),共需建设126台GPU服务器,每台GPU服务器提供8张H100GPU(单台服务器提供8000TFlops算力,126台合计提供2008P算力)。

数据存储:提供248TB并行文件存储容量,用以支撑包括130B大模型训练的数据存储要求,内嵌高性能数据存取引擎,用于并行处理所有客户端的数据访问请求,内嵌高性能数据恢复引擎,支持节点扩容,支持大规模数据集和快速的IO需求。

网络连接:集成最新高速网络接口,400Gbps/200Gbps/100Gbps/40Gbps/

25GbpsEthernet,以支持高吞吐率和低延迟的GPU集群计算和数据传输。

软件和AI工具:应该预装有AI和深度学习软件堆栈,如CUDA、cuDNN、TensorRT、RAPIDS,以及支持各类机器学习框架的优化。

系统管理:可能包括高级的远程监控和管理功能,使运维人员可以有效地监控系统状态、性能指标以及进行故障排除。

2.1.3 网络架构

网络架构
图2-2智算中心网络架构图

2.2 算力调度平台

智能算力平台是基于云计算技术,面向人工智能业务场景下的训练及推理需求,提供包含GPU、并行文件存储、计算环境相关的资源;可提供机器学习平台,包含算法开发、模型训练、模型管理等功能,以单GPU卡和GPU卡虚拟化两种实例,和训练集群两种产品形式。提供租户隔离、安全、可靠的算力环境。优化业务和开发流程,打通开发环境、训练环境、数据资源全流程;提高科研效率的分布式训练及推理支撑平台。

2.2.1 算力调度平台定位

智能算力平台致力于打造算力中心建设运营的新模式,为人工智能和机器学习应用开发者,提供快速构建AI集群、立即提交分布式训练任务、对接各种存储管理用户数据的企业级开发平台,支持数据托管、代码开发、模型训练和部署的全周期工作流程。平台支持对GPU算力、CPU算力、多维存储、多模型资源、数据资源等多元资源的统一管理,打破网络速度瓶颈和环境搭建复杂等制约,面向多业务场景,提供多租户、计量、计费等丰富的运营功能,达到“像管理本地资源一样管理AI基础设施”的目标,全面提升算力中心的运营效率与平台能力。

智能算力平台具备自主创新、功能完善、智能运维、成熟运营、开源开放、安全合规、中立可靠、灵活部署八大优势,具备即刻调度扩容数万卡资源、设置最短优先调度链路、支持异构平台、提升感知作业级单卡颗粒度等能力。

2.2.2 算力调度平台架构

调度平台架构
图2-3算力调度平台架构图

2.2.3 算力调度平台特点

2.2.3.1 多区多业务资源整合

整合不同区域、业务、部门的分布式算力资源,实现资源的高效利用和跨区域的灵活部署,提高了算力利用率和业务灵活性。

2.2.3.2 算力资源自动调度

可自动分配和管理算力资源,优化算法并提高任务的调度效率;支持GPU、K8s、volcano资源调度系统,多节点多卡训练可将任务自动分发到计算计算,监控资源使用情况,资源自动匹配,故障监测等;能够满足高性能计算和大规模数据处理的需求,提供强大的计算能力和加速运算速度。

2.2.3.3 算法开发支持

集成jupyter的在线环境,用户上传工程文件,修改参数等,提供一个在线的IDE开发环境;通过提供算法开发、部署调试、代码管理等,帮助客户高效地开发、部署和管理算法。

2.2.3.4 集成多种深度学习环境

集成k8s/volcano调度系统;预置镜像集成CUDA、Anaconda、Python等基础功能外,同时也集成TensorFlow、PyTorch等深度学习框架。

2.2.3.5 高速并行存储

支持AIGC数据存储场景,满足大规模数据的高效存储和访问需求,提升数据处理速度。

2.2.4 算力调度平台优势

2.2.4.1 提供多元算力统一调度

对算力进行统一调度管理,包括通用云计算平台、容器平台、高性能计算平台、AI智算等算力服务平台,实现算力服务平台自动切换。

2.2.4.2 实现智能化算力调度与管理

具备分布式调度与管理能力,自动分配和管理算力资源,大幅缩短任务执行时间,提高工作效率,让客户专注于业务创新和应用开发。

2.2.4.3 智简运营运维

通过统一运营和运维管理平台,实现多种服务场景的运营化服务的同时,规范化高效运维,帮助用户实现精细化运营。

2.2.4.4 镜像仓库

提供开放的应用框架和模型服务,提供丰富的云原生、边缘、AI等应用,打造丰富的PaaS、SaaS应用生态,助力用户快速搭建业务场景的落地。集成多种训练框架,如CUDA、OpenCV、TensorBoard,TensorRT等基础库,Anaconda3、Python、NCCL#、PyCharm,Jupyter等基础功能,TensorFlow,、Keras、PyTorch、Caffe、MXNet等集成框架。

提供算法代码编写、模型训练、模型微调、模型管理、模型部署推理等服务;提供镜像仓库/函数库/驱动/深度学习框架/数据集等支持;集成行业内多家厂商生态应用,助力用户全场景的AI业务实现落地。

2.2.4.5 AI训练集群

用户在线创建AI训练集群,可根据机器规格和配置选择自己使用的资源,并设置使用的数量。内置作业调度系统k8s,docker和Singularity容器环境以及naconda、tensorflow和pytorch。支持提交分布式训练任务,将作业分配到指定的计算节点上,支持任务在线查看,包含任务运行的基础信息、日志信息、任务状态信息等并支持在线查看输出文件。

2.2.4.6 建设智能生态,打造丰富应用

提供开放的应用框架和模型服务,提供丰富的云原生、边缘、AI等应用,打造丰富的PaaS、SaaS应用生态,助力用户快速搭建业务场景的落地。

2.2.5 调度基础云平台

AI算力调度平台的基础,提供资源虚拟化和池化能力,同时能够满足客户对于基础CPU算力的需求。

2.2.5.1 计算虚拟化

通过虚拟化技术,将CPU、内存、I/O等服务器物理资源转化为一组可统一管理、调度和分配的逻辑资源,并基于这些逻辑资源在单个物理服务器上构建多个同时运行、相互隔离的虚拟主机执行环境。支持虚拟机、裸金属主机、容器主机等全生命周期管理。

通过软件定义网络技术,屏蔽底层网络设备的差异,实现网络流量的灵活控制,提供基础网络、VPC网络、负载均衡、虚拟私有网络、虚拟隧道、VPN等网络虚拟化功能。

2.2.5.2 网络虚拟化

通过软件定义网络技术,屏蔽底层网络设备的差异,实现网络流量的灵活控制,提供基础网络、VPC网络、负载均衡、虚拟私有网络、虚拟隧道、VPN等网络虚拟化功能。

2.2.5.3 云安全

从信息系统安全、数据安全、网络安全、内容安全、身份认证及安全管理等多维提供安全防护。提供完善、可靠的备份方式,支持在线备份、增量备份等功能保障数据安全;具备用户管理与用户隔离功能,确保用户间数据隔离与私密性。用户登录平台支持双因子认证;提供资源回收站功能,支持误删除资源找回,提供操作安全保证;提供安全组、web应用防火墙、网络访问控制策略等安全防护功能。

2.2.5.4 应用中心

包括开发者控制台和用户控制台及调度系统三大部分。提供云应用打包、上架、升级、部署等,提供图形化界面,可填入软件部署参数,支持业务应用一键创建。支持在开发者控制台开发供内部使用的应用,并发布到应用中心。

2.2.6 算力调度功能说明

内置slurm调度系统,自动挂载用户的文件存储目录,支持配置预览,能实时查看集群的网络拓扑;集成anaconda管理虚拟环境,内置python开发环境jupyter,可立即启动在线开发程序,并向下计算节点进行分发任务;支持图形化界面提交作业,支持选择集群、使用核心数、作业软件等,支持CLI命令行提交作业,支持可视化提交作业,加载常用作业模板,用户也可以自定义作业模板。

2.2.6.1 集群管理

支持用户在统一云门户上创建智算集群,可选择(登录节点、管控节点和计算节点)的规格和数量,计算节点可灵活选择“通用计算节点”和“GPU计算节点”,智算集群需支持VPC网络,实现资源的二层隔离。提供的智算集群支持内置singularity容器,兼容支持docker容器应用,用户可打包上传自定义容器进行计算。支持为GPU计算节点选择(1卡-8卡)的规格选项,采用GPU直通的方式,内置显卡驱动程序、CUDA环境等。GPU集群支持混合调度执行计算任务,支持单节点多卡,和多节点多卡调度。

集群管理 GPU集群支持集成anaconda管理虚拟环境,内置python开发环境jupyter,可立即启动在线开发程序,并向下计算节点进行分发任务。

集群管理界面上支持作业管理、队列管理,作业管理查看包含但不限于(作业名称、运行状态、所属队列、核心数、运行时长、总计核时、创建时间等),可对作业进行重新提交、删除、查看详情等操作。

2.2.6.2 作业管理

支持图形化界面提交作业,支持选择集群、使用核心数、作业软件等,支持CLI命令行提交作业,支持可视化提交作业,加载常用作业模板,用户也可以自定义作业模板。

2.2.6.3 软件中心

软件中心是平台提供的共享软件仓库,所有的智算集群都挂载了软件仓库,用户可以在提交作业时指定运行的软件,减少了软件安装调试的一些时间,用户可以点击收藏按钮收藏自己行业常用的软件,支持用户安装自己的软件,可以通过集群的登录节点将软件安装到自己的存储中。

2.2.6.4 权限管理

提供集群共享,可将资源分享给其他用户使用,可进行额度限制。

2.2.6.5 监控中心

提供仪表盘,显示用户的资源总览、资源告警和资源使用情况;提供计算节点的CPU使用率、内存使用率、GPU卡的使用率、显存使用情况;节点核心占用情况,已使用、空闲等,管理员可根据作业情况进行集群的伸缩配置;集群的整体CPU使用率、作业使用率等,以及作业情况,占用和排队分析;支持按队列统计分析各个资源使用情况;监控网络使用情况。

2.3 算力运营平台

2.3.1 算力运营平台定位

算力运营平台(Business&OperationSupportSystem,简称BOSS)是算力平台面向用户提供的运维管理界面程序。算力运营平台提供了统一运维门户和统一的基础运维功能,对云平台中的物理资源、虚拟资源和服务进行统一管理,包括硬件资源监控、服务状态监控、资源状态监控、日志查看、告警等功能,支持软件机器人自动运维和故障无害的运维技术,能极大提高运维效率和管理水平,并且具备良好的接口开放性,支持系统的功能扩展。

BOSS从“服务”的角度出发,在云平台操作系统与运行监控系统之上,关注如何将所有的资源封装为可度量的服务,并让最终用户以最便捷灵活的形式按需使用这些服务。

同时,BOSS统支持通过API将信息提交到统一告警平台,满足管理要求。

BOSS可简单方便的查看物理机、虚拟机的运行情况;管理物理机、虚拟机等物理设施以及虚拟设施的状态;查看告警日志等,提供全面的运维管理能力。

云平台可借助BOSS,对云平台的业务、运维、配置集成管控与分析,在系统频繁变更与上线的同时,提升运维服务水平。

2.3.2 算力运营平台架构

算力运营平台多维度涵盖了运维和运营能力,从而让云计算真正成为运营的服务,这也是云平台的核心方向和能力。

运维及运营作为云平台两大管理职能,相辅相成:

对运维管理员来说,基础设施运行情况监控、资源管理是确保租户SLA(ServiceLevelAgreement,服务等级协议)的保障,也是客户业务顺利运行的保障。

对运营管理者来说,通过客户管理、运营分析来保证云服务的落地和业务开展,SLA是运营得以长久的基础。

算力运营平台整体业务架构如下图所示:

运营平台业务架构
图2-4算力运营平台业务架构图

算力运营平台的架构分为Global和Zone,Global负责算力平台的全局服务,对平台外部提供API,并将资源请求转发到不同的Zone,Global中没有物理资源节点。每个Zone有各自的核心服务,为本区域内的资源服务。

Global和Zone框架图
图2-5 Global和Zone框架图

2.3.3 算力运营平台功能说明

支持用户在统一云门户上创建、使用和管理算力集群;完成平台租户所用平台资源的计量计费;提供仪表盘,显示用户的资源总览、资源告警和资源使用情况等运维管理与平台运营的相关功能。

2.3.3.1 通用平台功能

管理服务节点,提供管理服务,部署控制台、计费、BOSS等;提供IaaS安置组规划,将不同配置的机器划归不同的安置组(宿主机);提供VPC网络、私有网络和基础网路功能;提供裸金属云服务器-对应计算节点为裸金属计算节点;提供IAM、VDC的用户权限管理、角色管理、组织架构管理等。

2.3.3.2 智算集群功能

用户集群管理,集群包含登录节点、管控节点(可选),计算节点,计算节点的配置代表了集群的性能。

集群计算节点支持CPU计算、GPU计算和裸金属计算,裸金属为纯物理机计算。

可以创建、删除、扩容、缩容集群,可以自定义集群用户名和密码;支持集群名称、自定义集群描述,以及设置集群登录密码;支持webssh和登录节点可以绑定公网IP,进行外部访问登录节点和存储;内置作业调度系统slurm,队列管理,可以将计算节点规划成不同的队列,用户管理,添加、删除集群用户,多用户登录集群。

IAM账号权限管理,控制IAM账号使用集群的不同功能,以及限制管理功能,支持团队共享使用资源。

支持提交作业,包含选择集群、指定作业核心数、指定软件、选择作业文件;支持作业详情查看,运行状态以及作业结果文件,在线查看日志等;支持暂停作业、取消作业、删除作业、重新运行作业;支持GPU计算节点、CPU计算节点、支持裸金属计算节点选择。

2.3.3.3 作业管理

作业列表,显示所有作业信息,可根据集群筛选,点击作业查看详情,取消作业、重新提交作业等;提交作业,支持选择集群、使用核心数、作业软件等,支持CLI命令行提交作业,支持可视化提交作业;在线查看文件,编辑文件,调整参数。

2.3.3.4 软件中心

平台级的软件中心,所有人员都可以直接使用,支持根据软件提交作业;维护软件,编译安装好的文件,通过boss录入软件中心。

2.3.3.5 监控中心

提供仪表盘,显示用户的资源总览、资源告警和资源使用情况;提供计算节点的CPU使用率、内存使用率、GPU卡的使用率、显存使用情况;节点核心占用情况,已使用、空闲等,管理员可根据作业情况进行集群的伸缩配置;集群的整体CPU使用率、作业使用率等,以及作业情况,占用和排队分析;支持按队列统计分析各个资源使用情况;监控网络使用情况。

2.3.3.6 并行文件存储

lustre架构存储,内嵌高性能数据存取引擎,用于并行处理所有客户端的数据访问请求,内嵌高性能数据恢复引擎,支持节点间replication(多副本)/N+M(纠删码)数据冗余方式,有效容量不少于248TB。

2.3.3.7 计费

支持按包年包月和按需按小时计费两种模式,灵活满足用户实际情况。支持运营方独立制定算力计费策略和价格,面向用户提供灵活的费用管理和账单管理服务;面向资源提供方提供资源使用明细和成本结算依据,实现多方合作共赢。

2.3.3.8 Boss管理端

显示所有console的用户,并可为用户设置配额、调整配额;物理宿主机(hyper)查看,运行效率、安置情况等;用户端创建的智算显示、查看;用户端作业显示查勘;用户端使用存储信息显示;产品定价,和消费统计,支持按集群、存储容量和按作业进行定价。

2.4 并行文件存储系统

提供高性能并行文件存储服务,支持超算中心海量数据并发读写。具有以下特性:

(1)高扩展性

基于可弹性扩充的Scale-out架构,实现了可因数据量增长需求扩充容量节点,超越以往PB级限制,轻松支持EB级数据;当系统所承接的相关业务增长后,可以弹性扩充系统内的存储节点数量以提供更优的存储性能,且扩充前用户无需备份迁移数据或关闭系统,即可扩容至EB级容量空间。

(2)高可靠性

采用全对称架构及高效数据容错重构技术和故障自动恢复机制,保障全系统冗余内节点故障可恢复。系统支持NVDIMM缓存,保护(规定时间内)整集群掉电数据不丢失。

(3)高性能

使用多级性能加速技术,支持SSD二级缓存加速,采用OBS自主化管理本地文件系统,支持性能深度调优,以满足各种应用对存储性能的需求。

(4)多协议支持

提供NAS共享存储服务,支持标准SMB/CIFS协议、NFS协议、FTP协议、POSIX协议,使得客户无论使用Windows主机、Linux主机、Mac主机还是AIX小型机等其他常见客户端,都可以很容易地通过相应协议接口访问并行文件存储系统。

2.5 硬件配置说明

构建多元算力智算中心,通过整合多种GPU算力资源、通用算力资源,借助先进的管理与调度的算法和技术,为各类科研、企业和政务应用提供弹性、可靠的计算服务,满足人工智能、科学计算、药物研发等领域的计算需求。

2.5.1 算力服务器

算力服务器是智算中心的核心竞争力。为满足当下大模型训练和科学计算推理的高性能计算、高速数据传输以及高可靠性等需求,本次选择搭载英特尔Xeon、AMDEPYC等高性能处理器的英伟达数据中心级服务器,为智算中心提供核心高性能计算。

参考配置如下:8U规格,2CPU,8NVIDIA H100 NVlink 80G显卡,单卡FP32≥67TFLOPS,8400G网卡,2200G网卡,单台最高可实现536TFlops(每秒536万亿(=536×1012)次的单精度浮点运算)。

2.5.2 配套通用服务器

选用浪潮、华三等主流服务器厂商品牌2U服务器,为基础云平台及高性能并行文件存储系统提供基础资源。配套通用服务器主要包括云平台节点服务器(管理备份、计算及存储)和并行文件存储节点服务器。

2.5.3 算力网络设备

交换机的高速数据转发能力是实现高性能计算的基石。本项目采用高性能计算领域专用网络交换机,具备高速、低延迟、高可靠特性,为超算中心提供更高的带宽和更低的延迟,使得计算节点之间能够快速、可靠地进行大规模数据交换,大幅度提升计算效率。

智算中心采用Spine-Leaf(叶脊)网络架构,在Spine-Leaf架构中,Spine(脊)是网络核心节点,提供高速IP转发能力,通过高速接口连接各个功能Leaf节点,Leaf(叶节点)是网络功能接入节点,提供各种网络设备接入功能。Spine和Leaf交换机之间采用三层路由接口互联,可以选择开放式最短路径优先(OSPF)或外部边界网关协议(EBGP)实现Underlay网络三层互联,通过跨设备链路聚合技术和等价多路径(ECMP)实现多路径转发和链路快速切换,支持无阻塞转发、横向弹性扩展和网络可靠性。

本项目建设大规模RDMA(直接内存访问)高速人工智能算力和存储网络,计算平面采用8网口,存储平面采用2网口,计算节点之前带宽可达3.2Tb/s,采用业界领先的400GRoCE或IB交换机,构建领先的胖树(Fat-tree)无损网络。满足大型超算、智算场景东西向流量高吞吐、低时延的要求,网络延时<700ns,同时降低CPU利用率。

业务平面Fat-treeRoCE组网图
图2-6 业务平面Fat-treeRoCE组网图
存储平面Fat-treeRoCE组网图
图2-7 存储平面Fat-treeRoCE组网图

第3章 运营支撑体系

为能有效地保障系统的可靠运行,使整个应用系统的持续运行得到可靠的保障,并在系统出现故障时能够得到及时的恢复,整个运行体系能得到专业服务,具体服务范围应包括:

1.信息通信链路维护;

2.网络基础平台维护;

3.信息安全防护系统维护;

4.服务器与存储系统维护;

5.软件系统维护;

6.智算中心运营等。

为保障业务系统能够提供7×24小时不间断的服务,缩短系统宕机时间,系统必须能够得到及时专业的维护,为运营中心提供一个稳定,高效的运行环境,同时提高相关技术人员的技术水平和日常系统维护能力。具体要求如下:

1.保障系统运行的稳定性和可靠性:通过对系统的主动维护,保证信息系统核心业务和辅助业务都能够稳定、可靠地运行。

2.保障系统的安全性和可恢复性:通过定制合理的安全策略和备份方法,保障业务系统、数据库系统、数据库的安全性和灾难下的可恢复性。

3.故障的及时响应与修复:在系统出现问题后,在第一时间定位出错原因,并快速提出故障排除解决方案并恢复系统的正常运行。

4.保障投资能够得到最大限度地回报:在保障系统正常运行的基础上,对现有资源的使用进行合理的优化和规划,充分利用最新的信息技术,使得现有投资得到最大的回报。

5.提高技术运维人员的技术素养:通过专门的培训,配以远程或现场服务,实现对技术人员的交流和帮助,提高技术人员信息系统维护操作方面的独立工作能力。

6.提供后期系统建设的咨询、规划服务:对项目后期的建设、系统优化、系统阶段扩容、系统应用的推进等提供咨询和规划服务。

第4章 运维管理平台

提供了一个统一的管理界面,允许IT管理员通过一个控制台监控、配置和维护整个数据中心基础设施。包括服务器及存储设备监控、网络设备监控、虚拟化监控、业务系统监控等。提供流量分析、性能评估、故障诊断等功能。

(1)服务器及存储设备监控

为确保服务器高速、稳定运转,本系统运维监控平台从多个方面对主机服务器的硬件设备及操作系统进行监控管理和性能管理。它通过采集服务器的CPU、内存、硬盘、网卡等硬件的关键运行参数,以及软件和应用程序的进程、服务、端口等的运行状况,对系统日志进行分类扫描查询。通过数据采集和分析,能够及时对影响服务器运行性能的故障事件发送报警,并采取相应的故障处理措施,保证服务器的正常安全运行。

(2)网络设备监控及管理

管理员可以通过交换机进行对节点的远程管理和配置,监控网络流量和性能指标,实时了解计算集群的状态和运行情况。这样的管理和监控功能可以帮助管理员及时检测和解决网络故障,提高计算环境的可靠性和稳定性。

(3)虚拟化监控

支持监控宿主机Host的运行状况、网络状态、CPU使用率、内存使用率、存储容量;支持监控Host硬件状态,包括处理器、内存、风扇、温度、电源、存储器等。支持虚拟机运行状况、网络状况监控,包括:CPU使用率、内存使用率、分区文件系统使用情况、存储使用率、虚拟磁盘读写速度、网络性能、僵尸虚机等。

(4)业务系统监控

实现软件业务系统的运行指标监控,及时发现业务系统异常,保障业务系统的高可用;支持第三方业务按照接口定义方式向平台传输告警,并将告警发送到相关责任人。

(5)流量分析

流量分析模块对用户各项业务的流量,可以检查特定业务流量在总流量中所占有的比例、流量运行规律、流量路径。

(6)性能评估和故障分析

即使是对大型的IT系统架构也可以将数据采集频率提高到5秒钟,方便用户对故障的实时诊断;历史报表可以按照原始数据或者统计数据来生成,方便用户对IT系统的故障缺陷查找和性能评估。

第5章 安全设备

网络防火墙:防火墙对流经它的网络通信进行扫描,这样能够过滤掉一些攻击,以免其在目标计算机上被执行。防火墙还可以关闭不使用的端口。而且它还能禁止特定端口的流出通信,封锁特洛伊木马。最后,它可以禁止来自特殊站点的访问,从而防止来自不明入侵者的所有通信。

入侵检测:IDS(入侵检测系统)是一种安全工具,旨在检测计算机系统、网络或应用程序中的恶意活动和安全漏洞。它通过监视计算机系统、网络或应用程序的活动来检测潜在的入侵行为,并发出警报以通知管理员采取适当的措施。

日志审计:把所有重要资产的大量运行日志信息进行收集、记录、查询、解析并存储,能够把所有重要资产的日志信息进行关联分析,并在可视化图上直观地呈现出来。

第6章 算力中心建设服务

(1)机房布线服务

根据项目情况进行机房综合布线。主要包括:

①网络规划与设计

根据机房布局、设备位置等信息,制定出合适的网络布线方案。

②线缆敷设与连接

铺设和连接各类网络线缆,如网线、光纤等,确保设备间的有效连接。

③标识与整理

对线缆和设备进行标识,确保清晰可辨和便于管理。

④测试与调试

确保布线质量和网络性能,并进行必要的设备配置和调整。

(2)实施交付服务

实施交付服务主要包括:

需求沟通、现状调研及实施方案详细设计;

服务器、网络设备及安全设备上架及安装部署;

网络调试;

所有软件的安装部署及调试。

(3)日常运维服务

至少3名工程师驻场运维,驻场运维服务主要包括:

①负责主机设备的日常维护与管理。负责操作系统的安全加固,对主机设备和操作系统进行日常监控,及时处理相应故障;

②通过各类监控工具7×24小时无间断对机房系统、网络、环境、应用等运行情况进行监控,及时发现监控工具的各类报警,执行监控问题的登记、通知和转发,协调技术人员处理,开展计算机机房设备巡检工作,检查机房内设备硬件运行状况进,及时发现各类机房设备的硬件异常,协助相关维护工作

③将运行工作中遇到的各类突发情况及时、准确、清晰地向相关负责人汇报,根据事件处理进度,配合相关负责人妥善解决各类事件,建立事件处理过程记录,建立计算机机房运行日志,搜集各类运行工作信息,记录运行日志,管理计算机机房运行档案,管理计算机机房运行人员出入和设备出入。对网络基础设施、服务器、进行管理、部署、故障处理;对外服务工作的沟通协调和技术支持。

第7章 平台容量规划

根据本平台容量需求,共规划126台GPU服务器,并配套管理节点6台,备份节点2台,计算节点4台,并行存储节点6台。

第8章 项目配置清单

序号 设备名称 规格参数 数量 单位
AI算力集群
1 GPU节点 1、CPU:≥2颗CPU,单颗主频≥2.6GHz,单颗核数≥32核;
2、系统盘:≥2块480GBSSD;
3、数据盘:≥3块7.68TNVMeSSD;
4、内存:≥12张64GB/DDR4ECC/2933MHz;
5、网卡1:≥8个400G单端口ROCE网卡/Infiniband网卡;
6、网卡2:≥1个25G单端口以太网卡;
7、网卡3:≥2个200G单端口以太网卡/Infiniband网卡;
8、BMC网卡:≥1个支持IPMI/PXE共享的单口RJ-45网卡;
9、RAID卡:≥1张RAID卡,SAS阵列卡支持RAID0/1/10/直通;
10、GPU卡:≥8张,单卡性能FP64算力(非稀疏)≥33teraFLOPS,
FP32算力(非稀疏)≥494teraFLOPS,
FP16算力(非稀疏)≥989teraFLOPS;
GPU内存容量≥80GB;
GPU内存带宽≥3.35TB/s;
GPU互联带宽≥900GB/s。
126.00
网络设备
1 管理服务器 1、CPU:≥2颗CPU,单颗主频≥2.1GHz,单颗核数≥12核;
2、系统盘:≥2块480GSSD;
3、内存:≥4张32GDDR4ECCRDIMM;
4、数据盘:≥8块1.2TSAS10K;
5、网卡:≥1张双端口25G含模块;
6、RAID卡:≥1张SAS阵列卡(支持RAID0/1/10/5/50/6/60/JBOD,
2G缓存含电池;
6.00
2 备份服务器 1、CPU:≥2颗CPU,单颗主频≥2.1GHz,单颗核数≥12核;
2、系统盘:≥2块480GSSD;
3、内存:≥4张32GDDR4ECCRDIMM;
4、数据盘:≥12块8TSATA;
5、网卡:≥1张双端口25G含模块;
6、RAID卡:≥1张SAS阵列卡(支持RAID0/1/10/5/50/6/60/JBOD,
2G缓存含电池;
2.00
3 通用高性能服务器 1、CPU:≥2颗CPU,单颗主频≥2.6GHz,单颗核数≥32核;
2、系统盘:≥2块480GSSD;
3、内存:≥6张64GB/DDR4ECC/2933MHz;
4、数据盘:≥2块4TBU.2NVMeSSD;
5、网卡:≥1张双端口25G含模块;
6、RAID卡:≥1张SAS阵列卡(支持RAID0/1/10/5/50/6/60/JBOD,
2G缓存含电池;
4.00
4 并行文件存储节点 1、CPU:≥2颗CPU,单颗主频≥2.1GHz,单颗核数≥16核;
2、系统盘:≥2块600G10K12GbSAS;
3、内存:≥16张DDR4320016G;
4、数据盘:≥15块3.84TSSD;
5、缓存盘:≥1块1.92TSSD;
6、网卡1:≥2张200G单端口ROCE网卡/Infiniband网卡;
7、网卡2:≥1张mellanoxCX5双端口25G含模块;
8、RAID卡:≥1张SAS阵列卡支持RAID0/1/10/直通。
6.00
5 算力网络交换机 算力网络交换机64*400GE口;
固化64个400GROCE网卡/Infiniband网卡;
主机已满配电源/风扇。
48.00
6 存储网络交换机 存储网络交换机64*400GE口;
固化64个400GROCE网卡/Infiniband网卡主机已满配电源/风扇。
10.00
7 通用网络交换机 通用网络交换机4825GE口,8100GE口 6.00
8 管理汇聚交换机 管理汇聚交换机4810GE口,640GE口 2.00
9 带外管理交换机 带外管理交换机48个10/100/1000BASE-T电口,4*10GE端口 4.00
10 防火墙 1、防火墙SOP虚拟防火墙技术,支持CPU、内存、存储等
硬件资源划分的完全虚拟化;
2、安全区域划分可以防御
Land、Smurf、Fraggle、PingofDeath、TearDrop、IPSpoofing、
IP分片报文、ARP欺骗、ARP主动反向查询、
TCP报文标志位不合法超大ICMP报文、地址扫描、端口扫描、SYNFlood、
UPDFlood、ICMPFlood、DNSFlood等多种恶意攻击
3、基础和扩展的访问控制列表、基于时间段的访问控制列表、
基于用户、应用的访问控制列表、ASPF应用层报文过滤、
静态和动态黑名单功能、MAC和IP绑定功能、
基于MAC的访问控制列表;
4、支持802.1qVLAN透传;
2.00
11 网络配件 10G光模块20个;25G光模块580个;40G光模块6个;
100G光模块50个;400G转200G一分二线缆132条;
400G光模块4100个;400G光纤2050条;普通光纤400条。
1.00
软件平台
1 智算平台平台运营管理授权 支持用户在统一云门户上创建、使用和管理算力集群;
完成平台租户所用平台资源的计量计费;
提供仪表盘,显示用户的资源总览、
资源告警和资源使用情况等运维管理与平台运营的相关功能。
1.00
2 智算平台平台算力调度授权 内置slurm调度系统,自动挂载用户的文件存储目录,
支持配置预览,能实时查看集群的网络拓扑;
集成anaconda管理虚拟环境,内置python开发环境jupyter,
可立即启动在线开发程序,并向下计算节点进行分发任务;
支持图形化界面提交作业,支持选择集群、使用核心数、
作业软件等,支持CLI命令行提交作业,支持可视化提交作业,
加载常用作业模板,用户也可以自定义作业模板。
1.00
Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐