|干货|直接见证NVIDIA GPU应用在各行各业大放异彩( 二 )

在解决机房建设这个基础问题后，硬件问题亦是重点。
要知道硬件资源层构成复杂，部署AI应用需要涉及算力、网络、存储等方面，标准的集群构建需要管理节点、计算节点、存储节点和网络节点、我们一般管理节点采用普通2U机架式服务器，顾名思义，它是承担集群中管理的角色，计算节点即我们提供核心算力的部分，通常采用GPU服务器，为首的有NVIDIA A40 Tensor Core GPU 。
NVIDIA A40是NVIDIA Ampere 架构GPU ，速度提升一倍的单精度浮点 (FP32) 运算处理和改善的能效可显著提高图形和模拟工作流程的性能， A40采用第二代 RT Core 的吞吐量是上一代的 2 倍，并能同时运行光线追踪和着色或降噪功能，从而大幅加快工作负载的运行速度， A40采用第三代 Tensor Core新的 Tensor Float 32 (TF32) 精度提供的训练吞吐量达到上一代的 5 倍，而且无需更改代码即可加速 AI 和数据科学模型的训练。从硬件上支持结构稀疏度使推理吞吐量提升一倍；另外， A40具有超高速 GDDR6 显存，单卡48GB ，还可通过 NVLink 扩展到高达 96 GB ，为数据科学家、工程师和创意专业人士提供所需的大容量显存，让他们能够处理大型数据集以及数据科学和模拟等工作负载， PCI Express 第 4 代将 PCIe 第 3 代的带宽增加了一倍，因而提升了从 CPU 内存传输数据的速度，能更好地支持 AI、数据科学和 3D 设计等数据密集型任务，更快的 PCIe 性能还能加速 GPU 直接显存访问 (DMA) 传输， A40 向后兼容 PCI Express 第 3 代，这也提供了部署灵活性。

（图NVIDIA A40）
*与 NVIDIA 产品相关的图片或视频（完整或部分）的版权均归 NVIDIA Corporation 所有
思腾合力GPU服务器从2U2卡， 2U4卡到4U4卡， 4U8卡， 4U10卡均有覆盖，像IW4222-8GR这块8卡GPU服务器，就是我们构建集群经常用到的一款服务器，它支持2颗第三代Intel? Xeon? Icelake系列可扩展处理器， TDP 270W ，提供强大的X86处理平台针对推理及训练应用，带宽翻倍的PCIe Gen4平台上可支持8块双宽GPU卡，专为高密度GPU计算提供多方位的性能支持，支持高速网络，存储和其他IO扩展， 8个U.2硬盘。为高端计算平台提供高速传输和数据存储能力。同时进一步优化运维效率，拥有专业管理平台能够实现对市面主流的各类GPU实现识别，监控，风扇调速支持，故障报警等功能；存储节点即AI应用中存放数据的地方， AI应用对于数据量的需求非常庞大，而且对于读写性能、带宽都要求很高，所以对存储的容量、性能及安全性都有要求，存储可以采用分布式存储系统，即数据分布到各个存储节点上，并行读写，提供存储性能，同时可以采用不同的冗余方式，比如双副本、多副本、纠删码冗余技术等等，保证数据安全性，这块我司具备4U24盘位、4U36盘位存储服务器，也有自己的分布式存储管理软件，可提供集性能、容量、安全性与一体的分布式存储系统；网络节点有3套：管理网络、计算网络和IPMI网络，这里管理网络一般采用千兆以太网，计算网络一般采用万兆光纤网络或者IB网络， IPMI网络做远程管理使用。

（图 IW4222-8GR）
*与 NVIDIA 产品相关的图片或视频（完整或部分）的版权均归 NVIDIA Corporation 所有
NVIDIA A40 GPU 可使数据中心的性能和多工作负载能力获得进化式飞跃。它集优秀的专业图形性能与强大的计算和 AI 加速能力于一体，可应对当今的设计、创意和科学挑战。 NVIDIA A40 能驱动新一代虚拟工作站和基于服务器的工作负载，并随时随地为专业人士提供光线追踪渲染、模拟、虚拟制作等领域的先进功能。 NVIDIA A40 对最新 vGPU 软件的支持使复杂的图形工作负载可以在虚拟环境中运行，且性能可与裸机媲美。