CPU|公司应用监控做了吗?

CPU|公司应用监控做了吗?

文章图片

CPU|公司应用监控做了吗?

作为运维监控做不好 , 救火救到老 。 这话是没毛病 , 监控做不好 , 没有预警 , 等到发现问题已经影响客户业务了 , 这时候就真的是热锅蚂蚁团团转了 。 监控有多重要相信稍有的了解的朋友都是清楚的 。 总之有一个完善的监控系统是必要的 , 对系统不间断实时监控 , 能够保证业务系统持续稳定可靠运行 , 目标系统状态了如指掌 。


监控系统也有很多 , 目前我这边常用的事zabbix监控硬件设备、容器类用prometheus , 关于这两个系统后续想写介绍 。 但是有监控系统具体监控什么 , 有什么指标对象吗 , 这个大同小异 , 但是每个公司都会根据业务有所差别 , 其他的类似硬件、网络、流量、性能、安全监控后面文章一一展开 。 今天我来总结下对于各种应用的监控 , 有哪些监控项目 。

应用监控是监控系统中比较重要的项目 , 因此现在有专门的岗位设立 。 大家感兴趣可以多多研究 , 一门深入准有用武之地 。
域名:一般是域名状态监控 , 首页的状态码 , 404、403、502反正不是200的都可以报警的 。

SLB(负载均衡)nginx:可以监控的项目有域名访问量 , 特定url访问量、http状态码(错误码监控)、响应时间(延迟)、错误日志监控、流量IO
关系型数据库比如MySQL:监控端口存活状态、连接的数量、CPU/内存/磁盘空间使用率、增删改查每秒请求数(QPS)、锁表数量、从库同步状态、读写状态、同步延迟等

Redis:端口存活状态、连接数量、内存、CPU、QPS、主从状态、慢日志
MongoDB:IOPS使用率适合重要的指标 , 这玩意高了业务响应必缓慢、连接数量、增删改查QPS、内存使用情况、慢日志、主从库延迟、磁盘使用率、时延过大的请求次数

Kafka:端口存活、集群状态(zookeeper)、消费组未处理队列长度、topic指标、consumer指标
zookeeper: 主要是状态监控:端口存活、集群状态、超时时间、路径可读
RabbitMQ:端口存活、节点状态、单个队列、未消费队列
ElasticSearch:集群状态、端口存活、集群节点数、索引数量(分片索引、未分片索引数量)、查询写入QPS、线程数量

VPN:带宽使用情况、丢包率、状态监控、用户监控
容器:node(cpu、内存、IO、网络、磁盘等)(zabbix可以监控)、deployment、pod、endpoint、service、statefulset这些k8s自带可以探测、用prometheus配合grafana监控蛮好!
监控设置之了监控项、在设置一个阈值、达到然后报警、报警方式就多了、电话、邮件、短信、企微机器人、钉钉等都可以实现报警 , 发现故障及时解决 。 但最后有一套预警系统 , 可以从日志分析开始 , 将错误日志实时抓取、实时报送到开发人员手中 , 这样子会大大提高故障解决效率 。

今天就暂时说这些 , 欢迎各位朋友补充 , 共同进步!
【CPU|公司应用监控做了吗?】