文章图片
作为运维监控做不好 , 救火救到老 。 这话是没毛病 , 监控做不好 , 没有预警 , 等到发现问题已经影响客户业务了 , 这时候就真的是热锅蚂蚁团团转了 。 监控有多重要相信稍有的了解的朋友都是清楚的 。 总之有一个完善的监控系统是必要的 , 对系统不间断实时监控 , 能够保证业务系统持续稳定可靠运行 , 目标系统状态了如指掌 。
监控系统也有很多 , 目前我这边常用的事zabbix监控硬件设备、容器类用prometheus , 关于这两个系统后续想写介绍 。 但是有监控系统具体监控什么 , 有什么指标对象吗 , 这个大同小异 , 但是每个公司都会根据业务有所差别 , 其他的类似硬件、网络、流量、性能、安全监控后面文章一一展开 。 今天我来总结下对于各种应用的监控 , 有哪些监控项目 。
应用监控是监控系统中比较重要的项目 , 因此现在有专门的岗位设立 。 大家感兴趣可以多多研究 , 一门深入准有用武之地 。
域名:一般是域名状态监控 , 首页的状态码 , 404、403、502反正不是200的都可以报警的 。
SLB(负载均衡)nginx:可以监控的项目有域名访问量 , 特定url访问量、http状态码(错误码监控)、响应时间(延迟)、错误日志监控、流量IO
关系型数据库比如MySQL:监控端口存活状态、连接的数量、CPU/内存/磁盘空间使用率、增删改查每秒请求数(QPS)、锁表数量、从库同步状态、读写状态、同步延迟等
Redis:端口存活状态、连接数量、内存、CPU、QPS、主从状态、慢日志
MongoDB:IOPS使用率适合重要的指标 , 这玩意高了业务响应必缓慢、连接数量、增删改查QPS、内存使用情况、慢日志、主从库延迟、磁盘使用率、时延过大的请求次数
Kafka:端口存活、集群状态(zookeeper)、消费组未处理队列长度、topic指标、consumer指标
zookeeper: 主要是状态监控:端口存活、集群状态、超时时间、路径可读
RabbitMQ:端口存活、节点状态、单个队列、未消费队列
ElasticSearch:集群状态、端口存活、集群节点数、索引数量(分片索引、未分片索引数量)、查询写入QPS、线程数量
VPN:带宽使用情况、丢包率、状态监控、用户监控
容器:node(cpu、内存、IO、网络、磁盘等)(zabbix可以监控)、deployment、pod、endpoint、service、statefulset这些k8s自带可以探测、用prometheus配合grafana监控蛮好!
监控设置之了监控项、在设置一个阈值、达到然后报警、报警方式就多了、电话、邮件、短信、企微机器人、钉钉等都可以实现报警 , 发现故障及时解决 。 但最后有一套预警系统 , 可以从日志分析开始 , 将错误日志实时抓取、实时报送到开发人员手中 , 这样子会大大提高故障解决效率 。
今天就暂时说这些 , 欢迎各位朋友补充 , 共同进步!
【CPU|公司应用监控做了吗?】
- 百度造车公司再获25亿元融资!成立十月融资超44亿元,首款车4月亮相
- AMD|5nm Zen4来了!AMD被疯狂看好:服务器CPU份额要给对手上一课
- 申能集团、上海电气成立申电绿电科技公司,注册资本1亿
- ZARA旗下Uterque公司注销 该品牌或被合并
- 杨天真成立真真的品牌管理公司
- 王思聪投资入股易小星公司
- 红米手机|越来越像PC了!索尼官宣:PS5上架B站应用,看视频更爽了
- CPU|降价千元,骁龙888+144hz旗舰加速退场,新品要来了?
- 笔记本|击败京东物流,口碑第一的快速公司易主,拥有68架飞机年入2060亿
- 00后|最强垃圾佬?22岁小哥淘二手破烂造出的CPU:直逼初代Intel