51,000个云GPU融合为南极发现提供动力

IceCube Science的研究人员利用了大约51,000个基于云的GPU来帮助理解IceCube的大型传感器阵列收集的数据。

在南极,成千上万个传感器跨越一立方公里,被埋在冰下数千米处。这些传感器是IceCube的一部分,IceCube是南极天文台,致力于检测和分析中微子-中枢几乎不会与物质发生相互作用的核反应产生的安静神秘粒子。在今年最大的HPC会议(在丹佛举行的SC19)之前的周末,IceCube Science的研究人员利用了大约51,000个基于云的GPU来帮助理解IceCube的大型传感器阵列收集的数据。

“在人类历史上,我们首次在地面上配备了可以测量中微子,可以测量引力波并可以测量不同频率的光以观察天体现象的仪器,”高通量主管弗兰克·沃思文(Frank Wuerthwein)解释说。圣地亚哥超级计算机中心(SDSC)的计算机计算,加利福尼亚大学圣地亚哥分校的物理学教授,开放科学网格的执行董事在接受HPCwire采访时表示。“总的来说是研究宇宙中最暴力的事件……这个想法是,如果您有多种类型的检测机制,则可以弄清楚到底发生了哪些暴力事件。”

基于冰的传感器检测经过它们的中微子的信号,从中微子向整个古代冰原发出涟漪的冲击波中收集数据。那么计算在哪里进入流程呢?伍尔特温说:“他们需要了解冰的性质,而这是通过模拟完成的。”

建立实验

这成为了Wuerthwein大规模实验的基础:使用IceCube的科学目标作为获得GPU上基于云的模拟所能达到的最大规模的基础。实验具有三个目标:产生实际用于科学目的的数据;了解组织可以大规模爆发的程度;并了解云中GPU的全球容量。他说,这种爆发将在一个小时内为IceCube Science实现约一个月的仿真工作。

最初,他们开始使用Amazon Web Services(AWS)进行实验。事实证明,它们达到了AWS可用性的上限–事实证明,它们达到了地球可用性的上限。Wuerthwein表示:“这从在AWS上花费了数百万美金开始,到购买AWS,Microsoft Azure和Google Cloud的全部GPU容量,因为只有当我们购买全部全球容量时,我们才能达到我们的规模”实际上,即使所有三个云提供商都在发挥作用,其容量仍未达到80,000个Nvidia V100 GPU的目标(“呼唤我贪婪或雄心勃勃,” Wuerthwein说)。

接管全球GPU

伍尔特温像抢劫案一样制定了计划。他说:“因此,我们将尝试获取地球上所有可用的GPU –基本上任何时候只要有人想要任何GPU,我们都会被驱逐出去。” 五代Nvidia GPU参与其中,包括Tesla V100和P100。每个人都在处理针对其功能量身定制的IceCube数据负载,并且工作负载设计为仅花费15到30分钟,以减少由于突然的需求而从GPU引导的风险。

Wuerthwein说,协调组成型云提供商的工作已经做了一些工作-以及获取有关当天预期的信息。他说:“在某些情况下,令人信服的是向我们提供了有关预期结果的信息。” 范围是巨大的:遍及三大洲(北美,欧洲和亚洲)的28个云区域。 

当然,如此庞大的实验需要团队合作。Wuerthwein强调了Igor Sfiligoi(SDSC的首席科学软件开发人员)和David Schultz(威斯康星州IceCube粒子天体物理学中心[WIPAC]的过滤程序设计师)的努力,以及Benedikt Riedel(他们将实验变成技术上的现实)的努力。 WIPAC的计算经理),他帮助Wuerthwein协调了相关机构。

该实验由美国国家科学基金会(NSF)资助近30万美元。对于星期六进行的爆破模拟的第一天(Wuerthwein解释说,这是预期负荷的最轻的一天),团队预计花费约120,000至150,000美元,其余时间计划在第二天进行,用于一个安静的需求期感恩节或圣诞节。

在进行实验之前,团队在单个提供商上一次在数千个GPU上进行了可扩展性测试,时间为一个小时左右。然后,最后,在11月16日,他们做到了。在SC19上,Frank 透露了结果:在一个HTCondor池中,最多有51,000个GPU串联运行,所有这些都运行IceCube的模拟。Wuerthwein 写道: “在高峰期,我们的基于云的集群提供了Summit几乎90%的性能,至少是出于IceCube模拟的目的。”由于预算限制,该团队在两个小时后停止了实验。马克–取得了成功,除了在终止工作时遇到一些麻烦。

51,000个云GPU融合为南极发现提供动力

英勇的计算

Wuerthwein希望这个实验将为许多其他应用铺平道路。他说:“我们面临着非常广泛的不同科学问题,所有这些问题都可以引用给我们用于IceCube的相同基础设施。一旦我们了解了如何使用IceCube做到这一点,我们就可以将其作为服务提供给其他任何人。”他还对SC19的招待会感到满意:“每个人都认为我们取得了巨大的成功,”他说,“尽管事实上,我们远远没有达到目标。”

尽管如此,Wuerthwein仍预计在不久的将来不会发生如此大的爆炸。他解释说,毕竟,如果用户希望定期(而不是每年几次)以这种规模爆发,那么成本将会飞涨。他说:“现在,这是我一生中的一次。” “我不希望会有很多想要这样做的顾客来敲我的门。”

“我认为这属于–您做某事是因为您在突破界限。这是一个英勇的计算。”

给TA打赏
共{{data.count}}人
人已打赏
超级计算机

2019年11月TOP500超级计算机排行榜,中国保持数量优势,美国保持性能优势

2019-11-18 22:47:18

超级计算机

悉尼大学研究人员在量子误差算法方面取得重大进展

2021-6-21 23:11:10

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索