国内高校最大规模异构智算平台正式上线

CFFF平台正式上线

近日,国内高校最大的云上科研智算平台CFFF(Computing for the Future at Fudan)在复旦大学正式上线。据了解,平台由复旦大学、阿里云等共同打造,以公共云模式提供超千卡并行智能计算,支持千亿参数的大模型训练,具有大规模、高能级的特点。

业内人士指出,平台的上线对于进一步加强学术研究支撑算力,推动具有世界级影响力的科学大模型具有重要意义,而算力水平的提升有望成为激活数据要素潜能、驱动经济社会数字化转型的新引擎。

新范式带来科研新要求

“当下,很多研究都依赖于计算,但很多国际知名高校还停留在用大型机或者个人PC做研究的阶段。”中国工程院院士、阿里云创始人王坚表示,“这不是选择什么云计算部署方式的问题,而是关系到对计算的认识。”

复旦大学校长、中国科学院院士金力表示,在过去一段时间内,随着大数据资源的不断增长以及需要求解的科学问题日益复杂,引发了对于科学研究“第五范式”的探索,即在数据范式的基础上,引入智能技术,强调人的决策机制与数据分析的融合,将数据科学和计算智能有效结合起来,也就是常说的“AI时代的来临”。

复旦大学化学系教授、中国科学院院士赵东元也提到,“科研范式已经到了研究复杂体系的新阶段。我们现在越来越多的是在复杂体系下研究科学,需要借助更多的工具、不同的交叉学科融合来共同推进科研进展,AI就是一个很好的工具。现在,技术创新和科学创新结合得非常紧密,科学的发展会促进技术的变化,而技术为人类提供视野、工具,也会促进科学的发展。”

“在新范式的背景下,高校需要发挥更多作用。”金力强调,“‘单打独斗’已不适应大科学时代的科技创新,需要借助范式变革推进科研组织模式的迭代更新。我们现在常提到‘有组织科研’,其最大的优势就在于通过布局建设大平台。同时,需要通过学科的交叉研究激发创新突破,以加速科技创新与产业变革深度融合,推动产业转型升级。从AI的角度来看,需要拓宽应用场景,持续推进‘AI时代’的应用普及和覆盖群体。”

公共云计算平台支撑科学开放发展

在大模型技术爆发背景下,以微软为首的美国科技公司在全球掀起了智能算力的竞赛。值得关注的是,算力包括通用算力、智能算力和超级算力,目前全球算力产业智能算力占比逐渐扩张,通用算力占比下降。

公开资料显示,智能计算较通用计算的投入成本、技术门槛更高,各环节投资规模合计可能高达数百亿元,非公共云的模式正变得难以持续。

王坚强调了云计算的普惠价值。“为什么云计算很重要?因为云计算希望每个人在计算面前都是平等的,每个人都可以用计算来创造他应该创造的价值。CFFF平台在公共云上部署,对于高校建设科研计算平台是一个重要的转折点和里程碑,学校能拥有和企业一样的算力基础设施,公共云是非常重要的保证。”

据介绍,CFFF平台由面向多学科融合创新的智能计算集群“切问”一号和面向高精尖研究的专用高性能计算集群“近思”一号两部分组成。借助阿里云全球领先的大规模异构算力融合调度技术、分级存储技术、AI与大数据一体化技术,连成了一台真正意义上的“超级计算机”。

其中,阿里云乌兰察布数据中心以公共云模式为复旦校内多学院的多个科研项目提供超千卡并行智能计算,支持千亿参数的大模型训练。千卡并行的有效算力达到行业领先的92%,可拓展性达到万卡,万卡并行有效算力也可达90%。

金力表示,CFFF智能计算平台和以往的大科学装置或其他典型的科研基础设施相比有其特殊性。“CFFF智能计算平台具有大规模、高能级的特点。它是全国高校第一的超算集群,同时也是算力第一的异构智算集群。CFFF平台可以实现超1000卡并行智能计算,支持超1000亿参数的大模型训练,在国内高校中尚属首例。与其他大平台提供科学实验仪器设备不同,算力、算法、数据是人工智能领域发展的最基本保障,CFFF平台运行的速度将极大地影响科研效率、科研成本、平台的服务效能以及未来算法的产业化落地可能性。”

从平台的具体运用来看,资料显示,“切问一号”计算集群面向复旦大学提供高性能科学与工程计算服务,利用人工智能推动基础学科及多学科交叉领域开展前沿研究,为重点领域提供大规模计算和存储资源,如AI+生物医药、AI+材料科学、AI+数学、AI+分子动力学、AI+气象、AI+社会科学等相关学科。而“近思一号”专用高性能计算机群可满足学校多学科对于高性能计算的需求,提升各学科领域对于大规模数据处理的能力,如计算物理学、新能源新材料科学、大气海洋科学、地球科学、生物信息、医学健康、微电子、航空航天科学等学科。

“两者共同为全校高性能计算提供强大的计算资源,支持AI赋能科学研究的新范式发展,促进基础学科及交叉学科建设。”金力说,“我们希望CFFF能够为复旦的基础科学研究提供更强大、更稳定、更灵活高效、更低成本的算力支持,利用人工智能新技术解放科学生产力,加速发现新的科学原理和技术突破。同时,我们还希望基于CFFF平台能够建成一批具有世界级影响力的科学大模型,例如生命科学大模型、大气科学大模型、材料科学大模型、集成电路大模型等。”

产学研创新带动发展新动力

在CFFF成功落地的背后,是产学研合作进一步创新的成功。

“对于CFFF这样的大型智算平台,其工程实现和日常运营离不开专业工程团队的支持。此次平台的设计,需要将技术提供者和使用者在垂直领域紧密捆绑在一起,也是一次典型的企业为高校赋能,阿里云的支持和运维对于平台推动真正的科学发现具有重要意义。”金力指出。

“此次复旦大学和阿里云的合作很让人激动,这种合作反映出企业和学校的合作可以诞生新学科、新领域,甚至一个新类型的学校。CFFF的成功上线,不仅是一个属于复旦的计算平台,更是‘计算,因为在复旦而创造了未来’。这是中国也是全球第一次让高校拥有了和科技巨头一样的研究计算平台,让研究真正进入了计算驱动的时代。”王坚饱含热情地说。

王坚表示,复旦大学和阿里云的合作是产学研协同的创新。“IBM和哥伦比亚大学的合作,诞生了计算机专业。阿里云跟复旦大学的合作甚至可以像当年MIT跟贝尔实验室合作的那样,正是因为当时两者的合作,今天的大学工学院才有了通信专业,以产学研的合作创造出一个新领域、一个新机会。”

金力则进一步提到,产教融合有助于更好地培养人才。“这种产教融合不是一个单纯的技术转移关系,它包含两个方面:一是创新方面的密切互动和合作;二是人才培养方面的密切互动和合作。”

“在创新层面,通过产教融合,我们试图解决创新主体的责任,也就是通过企业和高校的密切合作,进行共同创新。在当下,只有拥有极强创新能力的企业才能够在国际竞争当中具备独立发展乃至引领的能力。因此,创新不是简单的为企业解决技术问题,而是在更高层面的校企联合。”金力说。

站在学生培养的角度,金力表示,“希望企业能够更多地看到社会的需求,为人才培养提供更清晰的方向,帮助高校在人才培养方面树立更明确的目标。同时,我们也希望学生可以通过在高校的学习,在与企业合作的过程中,尽快、尽早、更有效地为社会和经济发展服务。企业和高校的合作关系,是在创新和人才培养上双向赋能的关系,也是未来产教融合要达到的新境界。”(记者 袁小康)