深度解析 | 什么是超融合数据中心网络?( 二 )
文章图片
RDMA与TCP的对比根据业务的测试数据 , 采用RDMA可以将计算的效率同比提升6~8倍;而服务器内1us的传输时延也使得SSD分布式存储的时延从ms级降低到us级成为可能 , (公众号:网络工程师阿龙)所以在最新的NVMe(Non-VolatileMemoryexpress)接口协议中 , RDMA成为主流的默认网络通信协议栈 。 因此 , RDMA替换TCP/IP成为大势所趋 。
在服务器之间的互联网络中 , 当前有两种方案来承载RDMA:专用InfiniBand网络和传统IP以太网络 , 然而 , 它们都存在不足:
InfiniBand网络:架构封闭 , 采用私有协议 , 难以与现网大规模的IP网络实现很好的兼容互通;运维复杂 , 专人运维 , OPEX居高不下 。
传统IP以太网:对于RDMA来说 , 大于10-3的丢包率 , 将导致网络有效吞吐急剧下降 , 2%的丢包则使得RDMA的吞吐率下降为0 。 要使得RDMA吞吐不受影响 , 丢包率必须保证在十万分之一以下 , 最好为无丢包 。 而拥塞丢包是传统IP以太网络的基本机制 , 传统IP以太网中会使用PFC和ECN机制来避免丢包 , 但其基本原理是通过反压降低发送端速度来保证不丢包 , 实际上并没有达到提升吞吐率的效果 。
因此 , RDMA的高效运行 , 离不开一个0丢包、高吞吐的开放以太网作为承载 。
4AI时代的变化3:分布式架构成为趋势 , 加剧网络拥塞 , 驱动网络变革
在企业的数字化转型中 , 以金融和互联网企业为代表 , 大量的应用系统迁移到分布式系统上:通过海量的PC平台替代传统小型机 , 带来了成本低廉、易扩展、自主可控等优势 , 同时也给网络互联带来了挑战:
分布式架构带来了服务器间大量的互通需求 。
Incast型流量(多点对一点的流量)会在接收端造成流量突发 , 瞬间超过接收端接口能力 , 造成拥塞丢包 。
文章图片
分布式架构流量模型示意
随着分布式系统应用复杂度的增加 , 服务器之间交互的消息长度越来越大 , 即流量具备“大包”特征 , 进一步加剧了网络拥塞 。 Part2什么是超融合网数据中心网络的核心指标?
从上一节来看 , 为了满足AI时代的数据高效处理诉求、应对分布式架构挑战 , 0丢包、低时延、高吞吐成为下一代数据中心网络的三个核心指标 。 这三个核心指标是互相影响 , 有跷跷板效应 , 同时达到最优有很大的挑战 。
文章图片
三个核心指标相互影响
同时满足0丢包、低时延、高吞吐 , 背后的核心技术是拥塞控制算法 。 通用的无损网络的拥塞控制算法DCQCN(DataCenterQuantizedCongestionNotification) , 需要网卡和网络进行协作 , 每个节点需要配置数十个参数 , 全网的参数组合达到几十万;为了简化配置 , 只能采用通用的配置 , 导致针对不同的流量模型 , 常常无法同时满足这三个核心指标 。
Part3超融合数据中心网络与HCI有什么异同?
HCI(Hyper-ConvergedInfrastructure , 超融合基础架构)是指在同一套单元设备中不但具备了计算、网络、存储和服务器虚拟化等资源和技术 , 而且多套单元设备可以通过网络聚合起来 , 实现模块化的无缝横向扩展(Scale—Out) , 形成统一的资源池 。
HCI将虚拟化计算和存储整合到同一个系统平台 。 简单地说就是物理服务器上运行虚拟化软件(Hypervisor) , 通过在虚拟化软件上运行分布式存储服务供虚拟机使用 。 分布式存储可以运行在虚拟化软件上的虚拟机里也可以是与虚拟化软件整合的模块 。 广义上说 , HCI既可以整合计算和存储资源 , 还可以整合网络以及其它更多的平台和服务 。 目前业界普遍认为 , 软件定义的分布式存储层和虚拟化计算是HCI架构的最小集 。
- 微生物|为什么要到空间站做实验
- PyTorch深度学习实战 | 图像风格迁移(限免视频)
- 淘宝|8月8日支付宝蚂蚁庄园,神奇海洋,淘宝芭芭农场,最新答案与解析
- 海洋蓝眼泪是什么现象怎么形成的 海洋在白天呈红色的原因
- 人们常说的“秋老虎”一般发生在什么时候 蚂蚁庄园今日答案早知道8月9日
- 为了健康考虑海螺的什么部位最好不要吃 蚂蚁庄园今日答案8月9日
- 徕卡|为什么感觉小米用徕卡后,比华为用徕卡手机更火了?
- 电池|为什么爱立信、诺基亚又拿到了中国移动的5G无线主设备大单?
- 控制力矩陀螺|姿态控制有“神器”! 让空间站“坐如钟、行如风”的秘诀是什么?
- 移民|为什么湖南人刘强东和湖北人周鸿祎都要回故土寻根问祖?