美通社|浪潮信息助力中南大学智算平台智能化运维 | 故障

美通社|浪潮信息助力中南大学智算平台智能化运维 | 故障
文章插图

【 美通社|浪潮信息助力中南大学智算平台智能化运维 | 故障】针对传统人力运维管理面临的窘境,浪潮信息提出了以ISPIM (Inspur Physical Infrastructure Manager) 浪潮信息物理基础设施管理平台为核心的自动化运维解决方案。ISPIM平台是浪潮信息根据市场需求,遵循NFV标准,自主研发的一款高可用、高性能、高可扩展、高可维护的行业数据中心物理基础设施管理平台。该平台具备资源管理、故障监控、性能监控、能耗管理、报表统计、拓扑展示、服务器故障诊断、自动报修、固件升级/配置、OS部署等功能,可保障数据中心安全、可靠、稳定的运行。通过实地考察、调研并与中南大学HPC平台管理和技术人员进行多次反复的交流、沟通和分析、研究,浪潮信息研发工程师最终决定以“1+1+N高可用模式”,在5台服务器上部署ISPIM系统,主动采集频率为45min,监控指标可达150W+,覆盖智算平台内的所有设备。通过ISPIM提供标准的北向接口与CE(Cluster Engine)高性能平台对接,可获取到集群计算节点中CPU、GPU、内存、网络、负载等性能信息及计算节点状态,实现算力的统一分配、调度、管理,配合内置的浪潮信息管理驱动软件Teye,可实现对设备带内性能指标的秒级实时采集及历史信息汇聚。此外,ISPIM平台还具备全网设备硬件状态监控、性能指标实时监控的能力,基于浪潮信息故障专家库,联通浪潮信息360度专家服务,实现了浪潮信息服务器智能故障诊断、故障根源定位、专家维修建议、设备自动报修等一系列自动运维功能,帮助运维人员实时掌控设备状态,提高运维效率,缩短维修周期,同时极大程度上避免故障误判,能够对故障进行及时且有针对性的处理。(美通社,2021年11月17日北京)