|干货|直接见证NVIDIA GPU应用在各行各业大放异彩( 二 )



在解决机房建设这个基础问题后 , 硬件问题亦是重点 。
要知道硬件资源层构成复杂 , 部署AI应用需要涉及算力、网络、存储等方面 , 标准的集群构建需要管理节点、计算节点、存储节点和网络节点、我们一般管理节点采用普通2U机架式服务器 , 顾名思义 , 它是承担集群中管理的角色 , 计算节点即我们提供核心算力的部分 , 通常采用GPU服务器 , 为首的有NVIDIA A40 Tensor Core GPU 。
NVIDIA A40是NVIDIA Ampere 架构GPU , 速度提升一倍的单精度浮点 (FP32) 运算处理和改善的能效可显著提高图形和模拟工作流程的性能 , A40采用第二代 RT Core 的吞吐量是上一代的 2 倍 , 并能同时运行光线追踪和着色或降噪功能 , 从而大幅加快工作负载的运行速度 , A40采用第三代 Tensor Core新的 Tensor Float 32 (TF32) 精度提供的训练吞吐量达到上一代的 5 倍 , 而且无需更改代码即可加速 AI 和数据科学模型的训练 。 从硬件上支持结构稀疏度使推理吞吐量提升一倍;另外 , A40具有超高速 GDDR6 显存 , 单卡48GB , 还可通过 NVLink 扩展到高达 96 GB , 为数据科学家、工程师和创意专业人士提供所需的大容量显存 , 让他们能够处理大型数据集以及数据科学和模拟等工作负载 , PCI Express 第 4 代将 PCIe 第 3 代的带宽增加了一倍 , 因而提升了从 CPU 内存传输数据的速度 , 能更好地支持 AI、数据科学和 3D 设计等数据密集型任务 , 更快的 PCIe 性能还能加速 GPU 直接显存访问 (DMA) 传输 , A40 向后兼容 PCI Express 第 3 代 , 这也提供了部署灵活性 。

(图NVIDIA A40)
*与 NVIDIA 产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有
思腾合力GPU服务器从2U2卡 , 2U4卡到4U4卡 , 4U8卡 , 4U10卡均有覆盖 , 像IW4222-8GR这块8卡GPU服务器 , 就是我们构建集群经常用到的一款服务器 , 它支持2颗第三代Intel? Xeon? Icelake系列可扩展处理器 , TDP 270W , 提供强大的X86处理平台针对推理及训练应用 , 带宽翻倍的PCIe Gen4平台上可支持8块双宽GPU卡 , 专为高密度GPU计算提供多方位的性能支持 , 支持高速网络 , 存储和其他IO扩展 , 8个U.2硬盘 。 为高端计算平台提供高速传输和数据存储能力 。 同时进一步优化运维效率 , 拥有专业管理平台能够实现对市面主流的各类GPU实现识别 , 监控 , 风扇调速支持 , 故障报警等功能;存储节点即AI应用中存放数据的地方 , AI应用对于数据量的需求非常庞大 , 而且对于读写性能、带宽都要求很高 , 所以对存储的容量、性能及安全性都有要求 , 存储可以采用分布式存储系统 , 即数据分布到各个存储节点上 , 并行读写 , 提供存储性能 , 同时可以采用不同的冗余方式 , 比如双副本、多副本、纠删码冗余技术等等 , 保证数据安全性 , 这块我司具备4U24盘位、4U36盘位存储服务器 , 也有自己的分布式存储管理软件 , 可提供集性能、容量、安全性与一体的分布式存储系统;网络节点有3套:管理网络、计算网络和IPMI网络 , 这里管理网络一般采用千兆以太网 , 计算网络一般采用万兆光纤网络或者IB网络 , IPMI网络做远程管理使用 。

(图 IW4222-8GR)
*与 NVIDIA 产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有
NVIDIA A40 GPU 可使数据中心的性能和多工作负载能力获得进化式飞跃 。 它集优秀的专业图形性能与强大的计算和 AI 加速能力于一体 , 可应对当今的设计、创意和科学挑战 。 NVIDIA A40 能驱动新一代虚拟工作站和基于服务器的工作负载 , 并随时随地为专业人士提供光线追踪渲染、模拟、虚拟制作等领域的先进功能 。 NVIDIA  A40 对最新 vGPU 软件的支持使复杂的图形工作负载可以在虚拟环境中运行 , 且性能可与裸机媲美 。