首届年度超级计算机百亿亿日庆典

美国有望在2021年底之前部署一台或可能两台亿兆级计算机,而领导力计算的步伐将与摩尔定律减弱以及Dennard扩展规模的丧失作斗争。

10月18日(又称10/18)是Cray,Exascale计算项目和DOE实验室(Argonne,Oak Ridge和Lawrence Livermore)主办的第一个年度百亿亿日活动,它们正准备托管美国第一台百亿级超级计算机。这三台机器将由Cray利用其Shasta架构,Slingshot互连和新软件平台制造。

为了纪念这一时刻,Cray(现为HPE公司)和DOE在星期五早上主持了一次虚拟小组讨论。与会者们聚集在一起,讨论了百亿美元时代将如何改变计算科学的面貌以及它将促进的进步。专家小组由HPC分析公司Hyperion Research的首席执行官Earl Joseph主持。

加入小组的有:

ECP总监Doug Kothe,
史蒂夫·斯科特(Steve Scott),克雷(Cray)首席技术官
Rick Stevens,美国国家实验室的副实验室主任,
杰夫·尼科尔斯(Jeff Nichols),美国国家实验室的副实验室主任,
迈克尔·麦考伊(LLC)

超过百亿亿美元级阈值的计算机可以每秒执行10 18(18 quintillion)加或乘。10月18日似乎很自然地承认了这一重要的计算里程碑以及正在努力实现这一里程碑的社区。“ [百亿运算]确实是推动我们社会未来并使世界变得更美好的主要驱动力,以推动科学发展,开发更好的产品,改善所有人的医疗保健并[降低]医疗保健成本,以及Hyperion的约瑟夫(Joseph)说,“这也做了非常不寻常且令人着迷的事情,例如测试世界上不可能的事情。”

从兆次触发器到亿亿次触发器的轨迹使加法或乘法的能力提高了万亿倍。ORNL的Nichols说:“这使我们能够进行40年前无法做到的各种科学。” “ 40年前,当我们进行计算时,我们很幸运能得到一些接近实验的东西,但是今天,我们可以预测到实验者会在他们的实验室中找到什么。”

我们再次听说利弗莫尔(Livermore)面临的计算挑战非常艰巨,任务是不使用核试验就维护国家的核储备。“令人讨厌的事实是,到目前为止,我们基本上不得不在2D模式下运行大多数常规计算,只是因为在3D模式下运行,周转时间如此之长,以至于分析师在得到答案之前会忘记问题,”他说。 LLNL的McCoy。他说:“代码必须变得越来越具有预测性,因为设计的核武器可能持续一年,然后被替换,现在必须保持数十年。他们到位了。事情发生在他们身上。这些代码不能依赖其先前的预测。”

LLNL的Sierra机器已经在增强功能,并使实验室科学家能够以2D分辨率运行3​​D代码。“这打开了一扇从未有过的门,”麦考伊说。“借助El Capitan,他们将能够进行一系列计算测试,并量化3D中的不确定性。换句话说,3D可以成为新的2D。exacale系统将为我们带来改变。他们正赶上来。”

克雷(Cray)的许多克雷系统的设计师,弹弓网络的负责人史蒂夫·斯科特(Steve Scott)强调了下一代DOE机器的规模。“仅查看Frontier系统(预计于2021年下半年在ORNL),就相当于两个篮球场的大小,拥有35辆校车的重量。它具有90英里的布线。如果仅查看将所有内容联系在一起的网络带宽,那么就有足够的网络带宽在一秒钟内上传100,000个高清电影。”

美国有望在2021年底之前部署一台或可能两台亿兆级计算机,而领导力计算的步伐将与摩尔定律减弱以及Dennard扩展规模的丧失作斗争。“我们原本希望现在能买到一台exaflop的计算机,而且需要更长的时间。它比过去变得越来越困难。”斯科特说。以前,超级计算大约每10年就达到1000倍的性能提升。Roadrunner是首个千万亿次系统,于2008年部署。ASCIRed在1997年突破了1 teraflops的壁垒。

“几十年来,该逻辑的功率效率完全符合摩尔定律。在过去的10到15年中,情况已不再如此。它开始提高动力。而且我们开始到达可以看到摩尔定律终结的地方,即在未来十年内,当前的硅技术不会随着时间的推移而呈指数级地提高,因此构建这些系统的难度越来越大。”斯科特说。

Scott表示,强大的技术推动了向加速器的过渡,“这将为您提供每瓦特比传统CPU所能获得的每瓦更多的计算性能。”美国计划中的所有三种百亿亿安系统都将由加速器提供动力:Argonne的Aurora和Intel GPU,在Oak Ridge的Frontier使用AMD GPU,在Livermore的El Capitan使用尚未公开的GPU。

斯科特说:“随着我们对下一个十年的期待,我们将不得不做一些更具戏剧性的事情。” “我们会将其保存为zettaflops日。”

Argonne的里克·史蒂文斯(Rick Stevens)指出,亿亿次计算项目正在开发可在许多机器上运行的软件,而不仅仅是三台CORAL(Oak Ridge,Argonne和Livermore的协作)机器。他指出了架构向加速系统发展的总体趋势。“ GPU系统是这些应用程序软件包和软件堆栈(ECP正在开发)的目标。因此,不仅仅将这三台机器喂饱,还可以使用开源技术为整个生态系统喂饱,这将使一切变得顺利,所以我认为这是非常重要的一点。”

确保并实现更广泛的功能和更广泛的用途是ECP使命的一部分。ECP的Doug说:“这些技术将是便携式的,并且可以传输到从笔记本电脑和台式机到工程集群再到我们可以组装的最大机器的所有事物,而加速节点技术对于我们做到这一点至关重要。”科特。“这三台机器是解决我们已签署的问题的重要先行者,但我们希望这些技术将在整个生态系统中广泛使用。”

Kothe回顾了美国百亿亿美元级计划的进展,并重申了每天准备就绪的软件堆栈的重要性,如果没有这种软件栈,那么(非常昂贵的)百亿亿级机器将无法发挥作用。ECP支持与核库存计划,能源生产和传输,增材制造,癌症研究以及许多其他领域相关的关键科学工作。

人工智能是一个重点领域。AI功能已被带入ECP软件堆栈,并且所有三个实验室将同时托管两个人工智能机器学习应用程序以及建模和仿真。史蒂文斯(Stevens)也是科学大会堂会议AI的联合PI负责人(尼科尔斯(Nichols)以及伯克利(Berkeley)的Kathy Yelick也是如此),他分享了他对模拟与AI之间协同作用的热情。

他说:“我认为这将是我们科学运作方式的又一次巨变。” “特别是,我们认为我们可以使用这种组合来设计新材料,新的能源材料,无论是改进的光伏发电或储能材料,还是可以使反应堆更安全的材料。例如,我们认为我们可以将相同的思想应用于构建新型的聚合物,即环保的聚合物,这些聚合物会定期降解或在生产时不会产生有害影响。我们认为我们可以使用它来设计更好的药物,尤其是在癌症和其他疾病中。最后,我认为在百亿分之一秒的时间范围内,实际上可以使用AI来设计新型生物。”

尽管AI芯片领域仍处于起步阶段,但GPU已证明自己适用于传统的HPC代码以及新兴的AI代码,并且它们的混合精度功能为机器学习工作负载提供了加速。“今天,Summit可以每秒进行200百万个双精度加法或乘法运算,但实际上它已经可以进行3.3亿个半精度加法或乘法运算,” Nichols说。“使用低得多的精度进行训练,以便进行机器学习以基于数据构建模型的概念是我们所有系统都可以在更大程度上利用的。因此,我们今天在Summit上拥有的机器以及在将来拥有的机器将不仅具有从第一性原理的角度解决科学问题的能力,

McCoy强调了AI的重要性并降低了精度。摩尔定律正在放慢;Dennard缩放已经在后视镜中,因此计算机不会很快变得更快,”他说。“因此,我们需要找到某种方式来加快解决时间。机器学习与偏微分方程仿真相结合,可以作为力的倍增器,并以不降低的速度继续前进。因此,这对我们来说是一个巨大的世界。”

Scott表示同意:“使用今天我们所知的CMOS硅技术,我们极不可能以每秒10到21的速度运行zettaflop计算机。下一个十年将是关于采用不同的计算方式的方法。考虑到[CMOS]技术的缓慢发展,这种分析和仿真以及与传统建模的融合可能至少是,但很可能获得改进的性能和功能中心信任。”

谈话继续恢复掌权。DARPA最初将开放的百亿瓦级功率封套设置为20兆瓦,但已放宽至约30兆瓦。

功率效率是头等大事,在超级计算的前沿,它一直是GPU的关键驱动力。在混合系统设计中,全球最环保的十大超级计算机都采用了加速器,主要是GPU。

“当我们从Jaguar升级到Titan时,我们的性能提高了10倍,而功耗却保持不变。从泰坦峰到顶峰峰会也是如此,”尼科尔斯说。

但是,相对平坦的电源线不会达到百亿亿美元。从Summit到Frontier的过渡将功率范围从13兆瓦提高到30兆瓦(外部最大为40兆瓦)。每兆瓦的成本大约为100万美元,那么30兆瓦的电力相当于每年3000万美元的电费。尼科尔斯说:“我们如何在不增加一倍,三倍或一个数量级的功率的情况下获得另一个10或100或1,000的性能改善绝对是一个巨大的根本问题。” “如果没有重大创新,我们将无法继续支付百亿亿富翁之后我们要支付的那种电费。”

参与者以此为开端,以赞扬DOE和NNSA通过Exascale计算项目和PathForward计划进行的投资。Kothe说:“这些程序(及其前身)使我们能够为进行深度潜水节点和系统设计的公司提供资金,以确切解决拥有更多具有功耗意识的硬件的问题,并且确实获得了回报。”

“要说服政府中的许多人并不容易,这花了一段时间。但是当他们支持它时,他们就实现了。”尼科尔斯说。

“我可以向您保证,如果没有所有早期支持以及Exascale计算项目和针对性强的R&D(涉及到多个方面)的支持,那么几年后将要在您的地板上使用的机器是不可能的。机器。”斯科特说。

在此处观看网络广播的重播:https : //www.cray.com/resources/exascale-day-panel-discussion

为TA充电
共{{data.count}}人
人已赞赏
云计算

研究发现 Android手机收集的用户数据是iPhone的20倍

2021-4-2 15:35:28

超级计算机

IBM:HPC云爆发的创新

2019-10-24 16:48:07

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索