微软亚洲研究院|百亿美元的AIOps市场,微软早已开始布局( 二 )


在Azure的应用中,AIOps也已经显现出了不俗的能力。
据了解,微软云已经在智能运维方面积累了很多重要的技术创新,包括云服务系统的智能化和管理的自动化、云开发和部署的智能化以及智能化客户响应等。另一方面,人工智能和机器学习技术已经深度集成到了微软云的基础设施的管理软件站,包括智能监控、智能预测、智能修复等。
自动化和智能化一起推进,一方面使得云服务的可用性、可靠性以及效率的提升,另一方面云服务运行的自主性得到提高,需要进行人工维护的场景不断减少,机器学习技术也极大的改善并增强了微软云的开发和维护,比如像智能测试、智能诊断、智能部署等,大大提高开发和运营工程师的效率。
根据Gartner数据,微软Azure占据全球云计算近20%的份额。微软将AIOps能力赋能给Azure,想必微软也看到了在人人都可上云的时代, Azure“升维”AIOps必不可少。
三、服务、客户、工程是AIOps的核心
过去的运维是小数据,每一个运维模块都是一个数据孤岛,不涉及算法,仅能满足传统运维的使用场景。而发展至今传统的运维已经不能适应现在云计算时代的新运维。
随着人工智能大潮来临,基于人工智能的智能运维(AIOps)开始火爆起来了,得到了更广泛的关注。
张冬梅院长表示:“AIOps的三个核心是服务/系统、客户、开发/运维。”
具体来说,AIOps一方面可以让服务/系统设计和构建更加可靠、高性能和更高效;另一方面智能化运维可以改善用户体验、提升用户满意度;最后AIOps智能运维工具可以赋能给工程人员,让开发/运维实现更高生产力。
据林庆维介绍,目前AIOps已经可以应用于云系统的故障预测、异常检测、智能诊断、容量规划、事故管理等诸多实际应用场景。
比如为了保证云平台的高可靠性和高可用性,实时检测可能的系统异常尤为重要。大规模系统的异常检测通过监控平台的各种运行状态数据来实现,如性能指标数据(访问成功率、响应速度、CPU 使用率、内存占用率),系统事件,系统日志等,从数据窥探系统的健康状况。
除此之外,还有智能诊断:利用系统数据自动定位可能的故障原因、缩小问题空间;故障预测:在故障发生之前,提前预测以避免可能的损失,比如硬盘故障预测、大规模服务故障预测等。
与此同时,我们也不得不关注,AIOps所面临的短板挑战。在检测、诊断、预测以及优化中都面临着不同的问题,比如差异化需求、缺乏标注数据、在线系统的大规模和复杂性为运维带来难度。总的来说,机器学习所适用的场景与现实环境还是存在一定差距的。
因此,微软亚洲研究院将继续探索AIOps领域,让AIOps在未来更加自动化、主动化、通用化。