云端可扩展型GPU加速超级计算机，开创创新新时代

作者/来源：发布时间：2019-11-20

全新 Microsoft Azure NDv2 超大型实例可扩展至数百个互联的NVIDIATensor Core GPU，满足复杂的 AI 和高性能计算应用需求。NVIDIA 发布在 Microsoft Azure 云上的一种新型 GPU 加速超级计算机。

此次发布的全新 NDv2 实例是 Azure 上规模最大的一次部署，该产品专为处理要求苛刻的 AI 和高性能计算应用而设计，是全球速度最快的超级计算机之一。它能在一个 Mellanox InfiniBand 后端网络上提供多达 800 个互联的 NVIDIA V100 Tensor Core GPU。这是首次用户可以根据需求，在自己的桌面上租用整台 AI 超级计算机，而且其性能与那些需要数个月时间才能完成部署的大型本地超级计算机相匹配。

NVIDIA 副总裁兼加速计算总经理 Ian Buck 表示：“此前，只有一些全球性的大型企业和机构才能使用超级计算机进行 AI 和高性能计算。而这款在 Microsoft Azure 上推出的新产品实现了 AI 的大众化，使更多人能够获得基础工具，来解决一些全球最大的挑战。”

微软Azure Compute 企业副总裁 Girish Bablani 补充说：“由于云计算在全球各地呈现增长趋势，客户正在寻求更高性能的服务。此次微软与 NVIDIA 的合作，能够让用户即时获取超级计算能力，这在以前是无法想象的。可以说，我们开创了一个创新的新时代。”

出色的性能和更高的性价比

这款新产品十分适用于复杂的 AI、机器学习和高性能计算工作负载。相比基于CPU的传统计算，它具有显著的性能和成本优势。对于需要快速解决方案的 AI 研究人员来说，它可以快速启动多个 NDv2 实例，并在短短几小时内完成复杂的会话式 AI 模型的训练。

此前，微软和 NVIDIA 的工程师已在该集群的预览版本上使用 64 个 NDv2 实例进行了实验。他们用了约三小时完成了 BERT 会话式 AI 模型的训练。能够实现这一速度的原因之一是使用了 NCCL（一款 NVIDIA CUDA X™ 库）提供的多 GPU 优化以及高速 Mellanox 互联解决方案。

另一个优点是客户可以使用多个 NDv2 实例运行复杂的高性能计算工作负载，比如 LAMMPS，这是一种流行的分子动力学应用程序，用于在药物开发和探索等领域中模拟原子级物质。相比于一个专用于特定应用程序（如深度学习）的、未使用 GPU 的 HPC 计算节点，单个 NDv2 实例就能实现高达一个数量级的速度提升。如果需要进行大规模的模拟，还可以将这一性能线性扩展至一百个实例。

所有 NDv2 实例都能够受益于 NVIDIA NGC 容器注册表和 Azure Marketplace 中所提供的 TensorFlow、PyTorch 和 MXNet 等 GPU 优化高性能计算应用、机器学习软件及深度学习框架。该注册表还提供 Helm 图表，让用户在 Kubernetes 集群上可以轻松地部署 AI 软件。

上一篇 : 医疗行业云发力，智慧云医方便就医

下一篇 : 5G最新场景应用展现与未来对话