Search the whole station

案例解读 | 某央企研究院基础监控告警平台建设实践

客户简介

案例客户为某央企下属研究院。

痛点分析

随着信创国产化持续推进,案例客户已完成部分IT核心系统的替代,部署了一系列国产软硬件设施,如Kylinv10操作系统、融智通网络设备等。由于信创生态不够成熟,缺乏整合,各资源厂商只能提供满足自身产品的运维工具与服务。

当前该单位的IT基础设施处于信创产品与非信创共存状态,这种共存状态使得原有的运维体系无法满足现有需求,打造具备信创整合能力,安全、自主可控的运维体系变得越来越迫切。

解决方案

乐维以运维监控起家,具有十多年运维产品经验,形成了非常成熟的运维监控解决方案。同时,乐维紧跟信创国产化浪潮,积极推动信创产品适配,融入信创生态,能够满足当前主流信创产品的兼容与监控需求。

根据客户需求,乐维打造了全面兼容信创国产化,且满足一站式监控与告警的智能运维监控解决方案。

信创部署与监控

项目的重点之一是将监控系统部署到客户的Kylinv10操作系统,完成对操作系统及其他信创产品的监控纳管。

乐维智能监控平台对国产化软硬件部署安装已支持包括:鲲鹏、飞腾、海光、龙芯、宝德、麒麟、统信、欧拉、达梦数据库、人大金仓数据库、高斯数据库、海量数据库等,成功部署在客户的Kylinv10操作系统。

环境信息

主机名IP地址角色CPU内存系统盘数据盘操作系统
xy-master主控节点(master)8核16G200GKylinv10
xy-slave1系统节点(slave)8核16G200G200GKylinv10
xy-slave2系统节点(slave)8核16G200G200GKylinv10
xy-slave3系统节点(slave)8核16G200G200GKylinv10
xy-harborharbor节点(Harbor)8核16G200GKylinv10
xy-build构建节点(build)8核16G200GKylinv10
xy-share1工作节点(share1)8核16G200GKylinv10
xy-share2工作节点(share2)8核16G200GKylinv10
xy-share3工作节点(share3)8核16G200GKylinv10
xy-share4工作节点(share4)8核16G200GKylinv10
xy-share5工作节点(share5)8核16G200GKylinv10
xy-share6工作节点(share6)8核16G200GKylinv10
xy-share7工作节点(share7)8核16G200GKylinv10
xy-share8工作节点(share8)8核16G200GKylinv10
yunwei运维软件节点16核32G200G

统一监控与集中告警

统一监控

之于原有运维监控系统无法实现信创基础设施与非信创基础设施全栈兼容问题,基于乐维监控的多协议支持与强大的整合能力,实现了对客户探测、数据库、操作系统、中间件、网络设备、服务器、存储、容器(K8S)等信创及非信创资源的统一监控纳管。

  • 重点监控指标
  1. 探测
序号对象类型关键性能指标正常范围
1WEB探测网页响应代码响应代码为200或302
2WEB探测网页响应时间响应时间不为零
3TCP探测端口状态端口状态正常
  1. 操作系统
序号对象类型关键性能指标正常范围
1Kylin操作系统CPU使用率CPU使用率小于95%
2Kylin操作系统内存使用率内存使用率小于95%
3Kylin操作系统磁盘使用率磁盘使用率小于95%
4Kylin操作系统inode分区磁盘使用率磁盘使用率小于95%
5Kylin操作系统CPU负载CPU负载低于3倍CPU核心数
  1. 数据库
序号对象类型关键性能指标正常范围
1PostgreSQL连接数利用率连接数利用率低于80%
2PostgreSQL数据采集状态数据采集状态正常
3PostgreSQL锁总数锁总数低于500
  1. 中间件
序号对象类型关键性能指标正常范围
1Nginx数据采集状态数据采集状态正常
  1. 网络设备
序号对象类型关键性能指标正常范围
1融智通光模块端口发光功率系统最低阈值<发光功率<系统最高阈值
2融智通光模块端口收光功率系统最低阈值<收光功率<系统最高阈值
3融智通CPU使用率CPU使用率小于90%
4融智通内存使用率内存使用率小于90%
5融智通板卡温度系统最低阈值<板卡温度<系统最高阈值
6融智通槽位在线状态槽位处于在线状态
7融智通风扇运行状态风扇运行状态正常
8融智通风扇在位状态风扇在位状态正常
9融智通端口接收利用率端口接收利用率小于90%
10融智通端口发送利用率端口发送利用率小于90%
  1. 服务器
序号对象类型关键性能指标正常范围
1服务器CPU使用率CPU使用率小于90%
2服务器内存使用率内存使用率小于90%
3服务器CPU状态CPU状态正常
4服务器电压模块状态电压模块状态正常
5服务器温度模块状态温度模块状态正常
6服务器电源模块状态电源模块状态正常
7服务器显卡状态显卡状态正常
8服务器磁盘状态磁盘状态正常
9服务器网卡连接状态网卡连接状态正常
  1. 存储
序号对象类型关键性能指标正常范围
1ceph监视器节点状态监视器节点状态正常
2cephOSD in状态OSD in状态正常
3cephOSD up状态OSD up状态正常
4cephpool空间使用率pool空间使用率低于95%
  1. 链路
序号对象类型关键性能指标正常范围
1链路或专线端口带宽接收利用率接收利用率低于90%
2链路或专线端口带宽发送利用率发送利用率低于90%
3链路或专线端口状态端口状态正常
  1. 容器
序号对象类型关键性能指标正常范围
1K8S节点CPU使用率节点CPU使用率小于90%
2K8S节点内存使用率节点内存使用率小于90%
3K8S节点状态节点状态正常
4K8SPOD状态POD状态正常
5K8S集群健康状态健康状态正常
  • 集中告警

平台提供了多维度告警信息统计。如实时告警、全部告警、告警视图等,借助告警数据与告警视图,快速判别告警级别的分布情况,并可作为评判系统健康度与运维工作量的重要依据。

触发器告警TOPN、对象告警TOPN,还可以定位不合理的触发器和异常的对象,一般超过20次是需要排查触发器的合理性。

未恢复告警时长TOPN还可以避免潜在的隐患长期无人处理。

  • 对象巡检维护

检查是否存在异常的监控对象,状态异常反应对象数据无法正常采集,需要及时疏通处理

运维门户与单点登录

门户在手,全局在握。方案打造了统一的运维门户,客户的各个IT子系统对接门户实现单点登录,将分散的运维系统整合成为一个监控与告警中枢,不必对各个系统逐一登录。

客户收益

1.安全。基于自主研发、安全可控的乐维监控,满足了客户对于信息系统安全合规性要求。

2.灵活可扩展。乐维监控具有很强的延续性与连贯性,支持灵活的扩展,在满足现有监控的同时,通过产品迭代升级就可以实现新的资源设备监控,无需推倒重建整个运维监控系统。

乐维社区已经开放乐维监控免费版、乐维MCM(监控+CMDB)免费版,欢迎下载体验!

The prev: The next:

Related recommendations

Expand more!