新睿云

> 知识库 > 香港GPU云服务器应该如何选择?

香港GPU云服务器应该如何选择?

作者/来源:新睿云小编 发布时间:2020-09-11

现今时代云计算机逐渐普及,深度学习与AI涉及到的数据集不断增加。可以预见的是未来计算机模型、网络模型也会越来越复杂,日后对于硬件设备与服务器的性能要求会越来越苛刻。

自建GPU服务器成本过高,则未来选择GPU服务器则成为了一大关。

GPU-的选择

熟悉深度学习的人都知道,深度学习是需要训练的,所谓的训练就是在成千上万个变量中寻找最佳值的计算。这需要通过不断的尝试识别,而最终获得的数值并非是人工确定的数字,而是一种常态的公式。通过这种像素级的学习,不断总结规律,计算机就可以实现像人一样思考。因而,更擅长并行计算和高带宽的-GPU,则成了大家关注的重点。

数据并行的原理很简单,如下图,其中-CPU-主要负责梯度平均和参数更新,而-GPU1和-GPU2-主要负责训练模型副本(model replica),这里称作“模型副本”是因为它们都是基于训练样例的子集训练得到的,模型之间具有一定的独立性。具体的训练步骤如下。

image.png 

除了计算能力之外,GPU-另一个比较重要的优势就是他的内存结构。首先是共享内存。在-NVIDIA-披露的性能参数中,每个流处理器集群末端设有共享内存。相比于-CPU-每次操作数据都要返回内存再进行调用,GPU-线程之间的数据通讯不需要访问全局内存,而在共享内存中就可以直接访问。这种设置的带来最大的好处就是线程间通讯速度的提高(速度:共享内存>>全局内存)。

而在传统的CPU构架中,尽管有高速缓存(Cache)的存在,但是由于其容量较小,大量的数据只能存放在内存(RAM)中。进行数据处理时,数据要从内存中读取然后在-CPU-中运算最后返回内存中。由于构架的原因,二者之间的通信带宽通常在-60GB/s-左右徘徊。与之相比,大显存带宽的-GPU-具有更大的数据吞吐量。在大规模深度神经网络的训练中,必然带来更大的优势。

另一方面,如果要充分利用-GPU-资源处理海量数据,需要不断向-GPU-注入大量数据。目前,PCIe-的数据传输速度还无法跟上这一速度,如果想避免此类“交通拥堵”,提高数据传输速度可以选择应用-NVlink-技术的-GPU-卡片。

image.png 

4-GPUs-with-PCIe

image.png 

4-GPUs-with-NVLink

NVLink-是目前最快的-GPU-高速互联技术,借助这种技术,GPU-和-CPU-彼此之间的数据交换速度要比使用PCIe 时快-5-到-12-倍,应用程序的运行速度可加快两倍。通过-NVLink 连接两个-GPU-可使其通信速度提高至-80-GB/s,比之前快了-5-倍。

其中-Nvidia-的-Volta-架构计算卡使用的-NVLink-2.0-技术速度更快(20-25Gbps),单通道可提供-50-GB/S-的显存带宽。

image.png 

P100-NVLink1.0-数据传输模式

image.png 

V100-NVLink2.0-数据传输模式

image.png 

而且就目前而言,越来越多的深度学习标准库支持基于-GPU-的深度学习加速,通俗点描述就是深度学习的编程框架会自动根据-GPU-所具有的线程/Core-数,去自动分配数据的处理策略,从而达到优化深度学习的时间。而这些软件上的全面支持也是其它计算结构所欠缺的。

简单来看,选择-GPU-有四个重要参数:浮点运算能力、显存、数据传输。

目前新睿云的香港云服务器均基于NVIDIA QUADRO RTX 6000

1599813016448.png 

目前依托 NVIDIA Turing 架构和 NVIDIA RTX 平台,将 20 年来计算机图形领域取得的重大进步引入了专业工作流程。设计师和艺术家们现可利用硬件加速光线追踪、深度学习和先进的着色技术大幅提升工作效率,以空前速度创造出令人惊叹的内容。

QUADRO RTX NVLINK HB 桥接器

NVLink 让专业应用程序得以使用多 GPU 配置实现内存和性能的轻松扩展。使用 Quadro RTX NVLink HB 桥接器连接 2 块 RTX 6000 显卡,可实现高达 100 GB/秒的带宽和总计 48 GB 的 GDDR6 显存,从而能够处理更大的渲染、AI、虚拟现实或可视化工作负载。

目前新睿云的香港GPU服务器价格上也占有极大的优势:

1599813031305.png

热门标签
new year
在线咨询
咨询热线 400-1515-720
投诉与建议
{{item.description}}

—您的烦恼我们已经收到—

我们会将处理结果发送至您的手机

请耐心等待