探访中国移动智算中心(呼和浩特) 管窥智算产业创新发展

新华网北京8月19日电(记者 孙云龙)在我国北方辽阔的大地上,有一座位于内蒙古自治区正在崛起的“中国云谷”——呼和浩特。这里有一颗璀璨的数字明珠——中国移动智算中心(呼和浩特)。

节能增效是刚需

呼和浩特年平均气温7.7℃左右,气候凉爽,自然灾害较少,电力供应充足,绿电占比高,同时用电价格低,是建设大数据中心的“理想之地”。建于和林格尔的中国移动智算中心(呼和浩特)自然拥有天时和地利之便。

呼和浩特是全国一体化算力网络国家枢纽节点,毗邻京津冀。随着今年通北京的400G全光骨干网络的建成,中国移动智算中心(呼和浩特)可以为京津冀提供高实时算力支援,也可以为长三角等区域提供非实时算力保障。

图为中国移动呼和浩特数据中心工程师孟繁跃

“智算中心能耗惊人,以一个910B的液冷整机柜为例,单机柜可装机8个服务器,平均每小时用电45度。”中国移动呼和浩特数据中心工程师孟繁跃说道。

图为中国移动呼和浩特数据中心副总经理李程贵

除了气候带来的天然节能优势,中国移动呼和浩特数据中心副总经理李程贵介绍,智算中心从制冷、绿电、能耗管理三个方面,全系统打造节能创新体系,大规模引入前沿的冷板式液冷方案,并配套闭式冷却塔、小母线等新型节能技术,2023年绿电比例达55%,PUE(平均电能利用效率)低至1.15,是行业领先的绿色低碳智算中心。

图为中国移动云能力中心智算专家李道通

中国移动云能力中心智算专家李道通表示,这个今年投产使用的智算中心部署约2万张AI加速卡,智能算力规模高达6.7EFLOPS(每秒670亿亿次浮点运算,EFLOPS指每秒百亿亿次浮点数运算),具有高灵活性、高可靠性和高安全性等特点,是目前为止全球运营商最大的单体智算中心。

该智算中心能够为用户提供定制化的智算服务,目前已在支撑九天人工智能大模型的训练与发布,并为中石油昆仑大模型的训练提供支持。中国移动智算中心(呼和浩特)不仅满足了国内对大型智算中心的迫切需求,更是中国移动在构建“N+X”智算中心布局中的重要一步。

智能算力创新发展

作为公共算力新型基础设施,智算中心是数字经济发展的核心“底座”。它不仅能够提供强大的算力支持,还能促进数据流通、模型训练和服务创新,为各行各业带来前所未有的机遇。随着人工智能和多模态大模型的迅猛发展,智算中心需求日益激增。

“我们评估,未来智算中心有三大重要发展方向。”李道通认为,当前生成式人工智能大模型成为新范式,万亿参数是必然趋势,算力需求进一步提升;推理是下一波高地,AGI应用将加速落地,对推理资源的需求将迅速上升;国内智算生态相对而言仍有较大差距,自主可控的体系化生态构建是唯一出路。这些对我国的智算产业来说意味着巨大的机遇与挑战。

作为数字经济领域的国家队,中国移动充分发挥央企责任担当、服务国家战略,发挥串联、协同、带动作用,以创新架构、系统集群、绿色低碳为战略支点,推动培育形成国产人工智能算力产业生态,在引领延链、补链、强链中升级智能算力供给。

图为中国移动智算中心(呼和浩特)机房内景

中国移动2021年原创性提出“算力网络”全新理念以来,以大算力赋能大模型,按照“集中训练、分布推理,统一管控、弹性调度,自主可控、绿色低碳”的原则,构建“N+X”大规模智算基础设施,打造了以中国移动呼和浩特智算中心为代表的首批13个智算中心,实现了“东数西算”枢纽节点基本覆盖。

截至今年6月底,中国移动已在京津冀、长三角、粤港澳大湾区、成渝、贵州、内蒙古、宁夏、黑龙江、湖北、山东等投产首批13个智算中心节点,智能算力规模快速增长,达到19.6 EFLOPS,智能算力在总算力占比超70%。

据介绍,中国移动不仅建设了大型智算中心,还研发了一系列关键技术来解决超万卡集群的调优和运维问题。

李道通告诉记者,作为全球运营商最大单体智算中心,中国移动智算中心(呼和浩特)在初期建设运维中面临GPU卡故障频发、网络链路不稳、软件系统缺陷等挑战。对此,负责智算中心产品运营和研发建设工作的单位中国移动云能力中心采取了三大关键举措,打造了一套自动交付工具,研发了一个智能管控平台,并组建了一个专业集成调优团队,为用户提供从模型设计到部署应用的全栈调优服务,实现了大模型在不同AI芯片生态间的无缝衔接与优秀性能表现。

此外,中国移动还首创了容器的弹性资源管理KOSMOS架构,有效解决了多租户环境下模型高效训练的问题。同时,中国移动积极推动模型跨平台迁移技术的发展,为国内信息技术生态自主创新注入了的活力。

当前,智算中心正向着更加绿色、高效、智能的方向发展。“中国移动今年还将商用哈尔滨超万卡集群,充分满足大模型集中训练需求。”中国移动云能力中心相关负责人表示,中国移动将持续完善智算节点建设布局,打造一批万卡级智算集群,加快超算、量算等多种类型社会算力并网,为社会提供更加丰富、更加优质的智能算力服务。