基础设施|云原生基础设施监控

以下是七个优秀实践,可帮助基础设施团队设置和优化云原生监控功能。以下是七个最佳实践,可帮助基础设施团队设置和优化云原生监控功能。数字企业继续改造和发展其IT基础设施,以增强与业务目标的一致性。数字服务中断可能会损害销售、收入和公司声誉,因此团队面临着最大限度提高整个堆栈的弹性和正常运行时间的压力。组织比以往任何时候都更需要全面的基础设施监控,以保持可见性,并在最终用户受到影响之前帮助工程师识别和解决问题。
基础设施|云原生基础设施监控
文章插图

基础设施监控的演变基础设施监控是一个整理和分析来自IT环境所有组件的度量、跟踪、日志和其他遥测数据的过程,以提供对可用性和性能的可操作洞察。然而,随着云环境的复杂性和动态性的增加,实现有效的监控变得更具挑战性。
例如,在多云环境中,每个平台都附带一个来自公共云提供商的原生监控解决方案,该解决方案只提供对其自身基础设施组件的可见性。因此,组织必须拼凑各种工具,这会造成复杂性并妨碍整个堆栈中的端到端可见性。
有了正确的技术和配置,基础设施监控将改变游戏规则。它帮助团队发现和分析趋势,并在潜在问题破坏用户体验或违反服务级别协议(SLA)之前标记它们。它还可以支持A/B测试,这有助于团队确定性能和用户体验的最佳基础设施设置。高度自动化的监控解决方案有助于团队减少手动流程,随着基础设施的发展可以轻松扩展,最重要的是,专注于创新,而不是修复bug。
以下是七个优秀实践,可帮助基础设施团队设置和优化云原生监控功能。
1. 尽可能实现自动化对于大型动态环境,使用高度自动化的基础设施监控解决方案是关键。监控功能的手动配置和仪表化是令人望而却步的劳动密集型任务。团队发现无法对其基础设施的一些部分进行检测,并且难以保持对代理的监控处于最新状态。
另一方面,自动部署、自动配置和自动基线使组织能够扩大可以捕获的度量范围,消除盲点,并在云原生基础设施堆栈中实现端到端的可观察性。这将带来更高质量的监控,并生成更精确的上下文洞察。通过增强数据,团队可以更快地解决问题,从而获得更好的客户体验。减少人为干预可以腾出时间让团队专注于更高效的任务,从而加快转型和现代化计划。
2. 花时间配置警报概述需要哪种警报是值得的,这样就可以尽快发现问题。如果没有可靠的警报配置,团队将无法确定问题并确定多个警报是否与同一问题相关。警报特指性可提高准确性并减少误报。周密的警报机制可以缩短响应时间,帮助团队更快地解决根本原因,提高正常运行时间。
为了获得最大的效率,自动基线功能可以显著减少警报配置的需要,能够自动消除误报,执行自动根本原因分析,并根据业务影响确定警报优先级。
3. 创建优先级根据业务影响对警报进行分组有助于团队首先将精力集中在最严重的问题上。这种方法消除了在对通知重要性的猜测,从而节省了团队的时间和压力。还可以将警报定向到不同的频道。
例如,一家公司可以将其IT服务管理(ITSM)系统配置为通过SMS向待命工程师的智能手机发送高优先级警报,并通过电子邮件发送低优先级问题。对于拥有24小时待命工程师的企业,优先顺序可以减少非工作时间的警报疲劳和团队中断。
4. 设置自定义仪表板通过创建特定于角色的仪表板,确保合适的人员能够访问所需的监控数据。组织内的不同团队可能需要出于不同的目的查看基础设施监控报告。例如,ITOps工程师可能与IT安全团队、营销部门和业务主管拥有不同的关键绩效指标(KPI)。