SC23 HPE 和 Nvidia 表示,他们正在为客户提供构建模块,以生产布里斯托大学 Isambard-AI 超级计算机的迷你版本,以训练生成式 AI 和深度学习项目。
两家公司正在联手销售一款基于 HPE 的 Cray EX2500 架构和 Nvidia 的 Grace Hopper Superchip 的模块化机器,以及由两家公司的工具组成的软件堆栈。
该系统将于本周在科罗拉多州举行的 SC23 高性能计算 (HPC) 会议上进行演示,其设计目的是通过预配置和预测试的堆栈,让组织更轻松地启动和运行人工智能培训。或者至少这是我们的意图。
据 HPE 称,该系统是第一个采用四 GH200 Superchip 节点配置的系统,这意味着每个节点包含 4 个 Nvidia 高端芯片。每个 Superchip 都结合了 72 核基于 Arm 的 Grace CPU 和 Hopper GPU,并可访问 480GB LPDDR5x 内存和 144GB HBM3e 高带宽内存。
这些节点使用 HPE 的 Slingshot 进行互连,这是一种网络技术,是以太网的超集,但添加了支持高性能计算 (HPC) 要求的功能。
这种硬件并不便宜,但 HPE 表示,这种特殊的解决方案允许客户从相对较小的规模开始,并根据需要进行扩展。
“我们有一些客户已经发布了 Grace Hopper Superchips,但这是独一无二的,因为 EX2500 允许您以一个为单位进行部署,因为所有冷却、电源和计算板都位于一个单一的模块中。 HPE HPC AI 和实验室执行副总裁 Juston Hotard 告诉我们。
他声称,这意味着该系统为“客户提供了一种非常简单的入门方式并继续扩展”。
作为此设置的一部分提供的软件堆栈中,有HPE 机器学习开发环境,这是一个用于训练生成式 AI 模型的平台,主要基于 HPE 从 2021 年购买 Defined AI 中获得的技术。
还包括 Nvidia 的AI Enterprise 套件,这是一系列 AI 工具和框架,例如 TensorFlow、PyTorch、Nvidia 的 RAPIDS 和 TensorRT 软件库及其 Triton 推理服务器。客户还可以获得 HPE 的 Cray 编程环境,这是一组用于开发、移植和调试代码的工具。
霍塔德表示,人工智能训练可能是你能遇到的计算最密集的工作负载之一,它需要不同的计算架构。
“我们都知道云架构是围绕最大化单个服务器的利用率进行优化的。因此,我们考虑这些工作负载的方式是,它们最好被分解成越来越小的部分,”他说。
“但是人工智能工作负载,特别是训练和大规模调整,有着根本的不同。在某些情况下,这些工作负载需要整个数据中心作为一台计算机运行。这是一个运行在数百或数千个节点上的工作负载,计算、互连和存储需要以与我们在超级计算机中看到的更加一致的规模运行,”他声称。
当然,这个新系统旨在为有能力负担得起的组织提供这一服务,但慧与拒绝透露其成本的详细信息。霍塔德表示价格将在不久的将来公布。
Nvidia 的科学项目经理 Jack Wells 声称基准测试显示,使用 Llama 2 处理大型语言模型 (LLM) 推理工作负载时,基于 GH200 的单个节点比双 Xeon 服务器快 100 倍。
他声称:“生成式人工智能正在重构科学计算,这将真正推动巨大的需求。”他补充说,HPE 和 Nvidia 已经拥有该产品的多个客户。
其中包括 CSCS 的瑞士联邦超级计算机、波兰的 Cyfronet、洛斯阿拉莫斯国家实验室和布里斯托大学的 Isambard-AI 系统,后者计划部署 5,448 颗 Nvidia GH200 超级芯片。
HPE表示,该服务将从12月起在30多个国家提供,虽然它的目标客户是公共部门和研究机构内的人工智能创新中心的客户,但该公司也预计大型企业会感兴趣。
【公司名称】四川旭辉星创科技有限公司
【代理级别】成都惠普HPE服务器工作站总代理
【销售经理】熊经理
【联系方式】座机:028-85596747 手机:18244236404
【公司地址】成都市人民南路 科华路口 群益商务大厦403
请用微信扫描二维码