2023-01-19 16:43:03
机器之心报道
编辑:泽南、小舟
Frontier上线给科学家提供算力的日期已经推迟到了明年。
在全球范围内,很多机构都在争相构建E级(每秒百亿亿次)超级计算机,性能指数级跨越的超算预计会在人工智能、医疗、气象等领域发挥重大作用,是超级电脑工程的重要里程碑。
世界第一台E级超算是美国橡树岭国家实验室(ORNL)的「Frontier」,它也是当前全球超算TOP500榜单的第一名,但虽说性能领先,Frontier却远远无法达到超算应有的效率。
近日,一些海外媒体接连报道称,当前世界最快的超算的硬件出现了大量故障,机器甚至无法运行一整天。
ORNLFrontier目前最多只能产生60%即1FP64ExaFLOPS的算力,而该系统旨在提供1.685FP64ExaFLOPS。虽然官方还没有就具体问题给出任何消息,但一些信息正被曝光。
在最新一期,2022年6月的TOP500榜单中,Frontier位列第一名,其标称的速度是1.685FP64ExaFLOPS。
橡树岭实验室的Frontier是业界首个使用AMD的64核EPYCTrento处理器、InstinctMI250X计算GPU和HewlettPackardEnterprise(HPE)的Slingshot互连,能以21兆瓦功率提供高达1.685FP64ExaFLOPS峰值性能的系统。HPE构建了该系统并使用了CrayEX架构,它专为横向扩展应用程序设计,适用于超高速超级计算机。
虽然从表面上看Frontier性能强大,并且系统硬件部分已经交付,但当前面临的问题似乎一直让机器无法保持正常运转,并且无法稳定提供即使是不及标称的1FP64ExaFLOPS的性能供研究人员使用。
OLCF项目主管JustinWhitt表示:「我们正在解决硬件问题,并确保找出关键问题所在。目前看来主要是规模问题和应用程序的广度问题,系统运行的项目过大,很难让所有硬件协同运行,通常间隔几小时就会出现一次故障。」从某种意义上说,Frontier是在超级计算机的期末考试上成绩不佳。
实际上,关于Frontier潜在硬件故障的流言已经出现了很长一段时间。InsideHPC曾报道称有人说故障原因是系统遇到了Slingshot互连的问题。此外,还有人表示今年AMD的InstinctMI250X计算GPU的可靠性不如预期,并且具有更多流处理器和高时钟的X版本仅适用于特定客户。
JustinWhitt没有证实该系统遇到了Instinct或Slingshot等任何特定问题,他只是强调该机器存在许多硬件问题。
OLCF负责人表示:「很多挑战都集中在GPU上,GPU是非常重要的硬件组成部分。但我们对AMD的产品尚且没有太多担忧。」
橡树岭国家实验室的Frontier超级计算机并不是唯一一个使用HPECrayEX架构、Slingshot互连、AMDEPYCCPU和AMDInstinct计算GPU的系统,芬兰的Lumi超级计算机(CrayEX,EPYCMilan,InstinctMI250X计算GPU)能提供550PetaFLOPS峰值性能,并已被TOP500正式列为世界第三强大的超级计算机。也许对于此类使用上千万零件组成的超算来说,问题不是孤立的。
从官方论述来看,HPE和AMD已在今年秋季提前向ORNL交付了新的Frontier系统。美国能源部E级超算项目的MikeBernhardt表示,ORNLFrontier的全面集成将从明年开始提供给研究人员,但并未引述对Frontier超级计算机的全面启动有任何担忧或问题。
在错过了原先设定的Deadline后,Frontier超级计算机计划于2023年1月1日全面投入运行。
人们都在期待E级超算带来的研究成果,不过伴随世界第一而来的还有部分怀疑。一些专家认为,在E级计算的竞争中Frontier比不上中国的两个计算机系统,后者的运营商还没有向TOP500提交测试结果。外媒theNextplatform曾表示,神威海洋之光(oceanlite,太湖之光的升级版)和天河3号超算在2021年3月就达到了持续的E级算力。
去年11月的全球超级计算大会SC21上,来自中国的超算应用团队因「超大规模量子随机电路实时模拟」成果获得戈登·贝尔奖。该团队表示,研究基于的新一代神威超级计算机可提供每秒4.4百亿亿次的持续计算性能,是超算领域全世界当时已知的最高混合精度浮点计算性能。
专家们表示,中美之间的紧张关系可能是中国没有向TOP500提交测试结果的原因。
参考内容:
https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure
https://www.top500.org/lists/top500/2022/06/
https://www.tsinghua.edu.cn/info/1173/89027.htm