算力突围:打造AI浪潮下的坚实底座

北京人工智能公共算力平台点亮、京津冀最大绿色算力中心投产运营、京津冀算力廊道正在谋划中、上海首个垂直领域AI千卡集群落地、全国首个算力交易平台上线……在全国多地,算力中心布局落地的消息频传新进展。

所谓算力,就是对数据的处理能力。小到手机、个人电脑,大到服务器、超级计算机,算力正走进千家万户、服务千行百业,成为像水、电、燃气一样的公共基础资源,提供“即取即用”的社会化服务。AI浪潮席卷而来,算力需求不断加大,作为新时代技术“底座”的智能算力产业方兴未艾。

智算中心加速崛起

在北京朝阳区酒仙桥核心地带,北京数字经济算力中心正在如火如荼建设中。该算力中心由北京电子控股有限责任公司旗下提供规模化先进智算算力、AI云及AI转型服务的高科技企业——北京电子数智科技有限责任公司(以下简称“北电数智”)承建,预计2024年完成基础设施建设,达产后实现多元异构的1000P智能算力供给。北京市经济和信息化局局长姜广智近日披露,初步统计,北京已形成1.2万P的总算力供给规模,下一步将加速算力基础设施建设,打造京津冀算力廊道,形成以智能算力为主、通用算力和超级算力多元协同的首都地区算力供给体系。

今年以来,ChatGPT的横空出世掀起一波席卷全球的大模型浪潮,这种强劲的需求瞬间传导至上游,支撑大模型训练和推理的算力成为“兵家必争之地”。作为智能时代的新型基础设施,智能算力中心迎来飞速增长的机遇窗口。2023年10月,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,其中提出2025年建成50个智能计算中心等量化指标。而计算力方面,到2025年规模将超过300EFLOPS,智能算力占比达到35%。

中国工程院院士、清华大学计算机系教授郑纬民说,从整体而言,我国算力基础设施规模已位居世界前列,但人均算力尚低。在数字经济时代,人工智能的进一步发展需要通过软硬件密切协同,才能进一步加速算力提升和使用效率。在未来,新型数据中心将是提供多样性计算综合能力的算力集群,以满足千行百业智能化的需求。

11月中旬,算力租赁概念股汇纳科技宣布,由于算力需求大幅增加,其内嵌英伟达A100芯片的高性能服务器算力服务收费将上调100%。汇纳科技的动向,只是我国算力市场环境的缩影。多家券商在10月发布的研报提出,随着行业需求的攀升,算力租赁行业将进入新一轮涨价周期。

“我们观察到,未来9到12个月算力需求还是会非常紧张。”百川智能技术联合创始人陈炜鹏在今年3个多月前的一场行业论坛中说道。多家大模型企业均遇到了不同程度的算力缺口。算力紧缺,已成为影响我国大模型产业发展重要因素。

“大模型是新型基础设施的关键底座之一,大模型的竞争也是国家科技战略的竞争,中国一定要布局全栈自主创新的大模型产品,同时要构建国产化算力。”郑纬民提醒。

郑纬民表示,目前一些国外厂商在芯片生产上有着更多的话语权,国内则因起步较晚,自研的芯片在性能上仍稍显不足。但性能上的差距可以在生态上得到弥补。所谓好的生态就是让芯片用起来不费劲,建立这样的生态,并让市场接受,需要一个过程。国产生态只要解决好编程框架、并行加速、调度器、内存分配系统、容错系统、存储系统等问题,即使只有国外芯片60%的性能,国产芯片也会大受欢迎。

郑纬民提出,除了人均算力水平尚低、算力关键技术等限制外,随着数据爆发式增长与算力单点性能极限之间的矛盾日益突出,我国算力节点通过网络灵活高效调配算力资源的能力仍存在不足,算网协同和全局调度能力有待提高,难以满足数据对算力随需处理的需求,将领先算力高效转化为解决科学与工程难题的能力依然面临挑战。

他表示,智算中心的建设和布局是一个重要趋势,但也伴随着包括资源分配、合作与竞争等方面的挑战,算力的统一调度是算力发展的路径之一,其关键在于将分散的算力资源聚合,形成集群效应。

同时,郑纬民对算力互联互通也提出了两点建议:一是屏蔽异构基础设施,通过统一的资源管理与调度软件实现算力的互通;二是提供更多的服务软件,抓住算力应用的机遇,提升算力普惠价值。

为满足客户对算力的灵活、高效、充分使用的需求,北电数智在算力灵活调度层面发力,整合分散的先进计算能力、充分发挥计算效果。同时,北电数智也在布局兼顾国内外不同品牌训练芯片及推理芯片等多种算力集群,通过调度算法,更合理地分配和调度计算资源,实现最优的计算性能和资源利用率。同时,其也在同步规划能够更高效地配置和使用计算能力的先进软件,智能分析用户提交的作业任务,根据任务特性进行自动化配置,确保每一个任务都能够得到最适合的计算资源。

算力狂飙也须兼顾“双碳”

郑纬民特别提醒道,在建设智能算力中心的同时,也要兼顾算力能耗与国家“双碳”目标的平衡。未来数据中心的发展须考虑不同地区能源结构的差异、同一地区不同行业的业务差异,提供更绿色的算力,并满足实时应用的需求。

在新建智算中心的同时,传统数据中心的智算改造与升级,成为绿色算力的重要组成部分。北电数智相关负责人介绍,北电数智通过软硬件升级和能耗方案的优化,帮助传统数据中心实现面向未来的整体智算升级与政策合规;同时,以携手改造、共同运营的全方位投入产出支持,帮助传统数据中心获得可持续增长,以满足人工智能产业对数据中的高算力、高效率、更环保的需求。

郑纬民还提醒,算力、网络具备很强的公共基础设施特性,加快建立一个开放性的产业生态,把选择权交给用户,才能驱动行业百花齐放,从而真正促进大模型产业的健康发展。