深度解析 | 什么是超融合数据中心网络?
本文样式、排版由网络工程师阿龙编辑 , 如需转载本样式风格、封面、字体版权 , 请保留此信息 , 以尊重小编辛苦编辑 , 否则后果自负 。
数据中心网络连接数据中心内部通用计算、存储和高性能计算资源 , 服务器间的所有数据交互都要经由网络转发 。 当前 , IT架构、计算和存储技术都在发生重大变革 , 驱动数据中心网络从原来的多张网络独立部署向全以太化演进 。 而传统的以太网无法满足存储和高性能计算的业务需求 。 超融合数据中心网络以全无损以太网来构建新型的数据中心网络 , 使通用计算、存储、高性能计算三大种类业务均能融合部署在一张以太网上 , 同时实现全生命周期自动化和全网智能运维 。 Part1为什么会产生超融合数据数据中心网?1现状:数据中心内有三张网络
数据中心内部有三类典型的业务:通用计算(一般业务)、高性能计算(HPC)业务和存储业务 。 每类业务对于网络有不同的诉求 , 比如:HPC业务的多节点进程间通信 , 对于时延要求非常高;而存储业务对可靠性诉求非常高 , 要求网络0丢包;通用计算业务规模大 , 扩展性强 , 要求网络低成本、易扩展 。
由于上述业务对网络的要求不同 , 当前数据中心内部一般会部署三张不同的网络:
由IB(InfiniBand)网络来承载HPC业务
由FC(FiberChannel)网络来承载存储网络
由以太网来承载通用计算业务
文章图片
数据中心内的三张网络
2AI时代的变化1:存储和计算能力大幅提升 , 网络成为瓶颈
企业数字化过程中将产生大量的数据 , 这些数据正在成为企业核心资产 。 通过AI技术从海量数据中挖掘价值成为AI时代不变的主题 。 通过AI机器学习利用各种数据辅助实时决策 , 已经成为企业经营的核心任务之一 。 与云计算时代相比 , AI时代企业数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理转变 。
文章图片
数据中心正在从云计算时代走向AI时代
为了提升海量AI数据处理的效率 , 存储和计算领域正在发生革命性的变化:
存储介质从机械硬盘(HDD)演进到闪存盘(SSD) , 来满足数据的实时存取要求 , 存储介质时延降低了不止100倍 。
为了满足数据高效计算的诉求 , 业界已经在采用GPU甚至专用的AI芯片 , 处理数据的能力提升了100倍以上 。 随着存储介质和计算能力的大幅提升 , 在高性能的数据中心集群系统中 , 当前网络通信的时延成为应用整体性能进一步提升的瓶颈 , 通信时延在整个端到端时延中占比从10%上升到60%以上 , 也就是说 , 宝贵的存储或计算资源有一半以上的时间是在等待网络通信 。
总的来说 , 随着存储介质和计算处理器的演进 , 网络的低效阻碍了计算和存储性能的发挥;只有将通信时长降低到与计算和存储接近 , 才能消除木桶原理中的“短板” , 提升应用整体的性能 。
3AI时代的变化2:RDMA替代TCP/IP成为大势所趋 , 但RDMA的网络承载方案存在不足
如下图所示 , 在服务器内部 , 由于TCP协议栈在接收/发送报文 , 以及对报文进行内部处理时 , 会产生数十微秒的固定时延 , 这使得在AI数据运算和SSD分布式存储这些微秒级系统中 , TCP协议栈时延成为最明显的瓶颈 。 另外 , 随着网络规模的扩大和带宽的提高 , 宝贵的CPU资源越来越地多被用于传输数据 。
RDMA(RemoteDirectMemoryAccess)允许应用与网卡之间的直接数据读写 , 将服务器内的数据传输时延降低到接近1us 。 同时 , RDMA允许接收端直接从发送端的内存读取数据 , 极大减少了CPU的负担 。
- 微生物|为什么要到空间站做实验
- PyTorch深度学习实战 | 图像风格迁移(限免视频)
- 淘宝|8月8日支付宝蚂蚁庄园,神奇海洋,淘宝芭芭农场,最新答案与解析
- 海洋蓝眼泪是什么现象怎么形成的 海洋在白天呈红色的原因
- 人们常说的“秋老虎”一般发生在什么时候 蚂蚁庄园今日答案早知道8月9日
- 为了健康考虑海螺的什么部位最好不要吃 蚂蚁庄园今日答案8月9日
- 徕卡|为什么感觉小米用徕卡后,比华为用徕卡手机更火了?
- 电池|为什么爱立信、诺基亚又拿到了中国移动的5G无线主设备大单?
- 控制力矩陀螺|姿态控制有“神器”! 让空间站“坐如钟、行如风”的秘诀是什么?
- 移民|为什么湖南人刘强东和湖北人周鸿祎都要回故土寻根问祖?