某大型金融科技企业50万个IT资产管理平台建设实践(进阶篇·上)
165650万个IT资产管理平台建设实践
View detailsSearch the whole station
客户企业是一家在香港联合交易所主板上市的投资公司。公司主要投资建设和经营城市燃气管道网络,提供管道安装及施工服务,并为工商业企业和城市居民提供天然气、液化石油气。
作为一家大型燃气供应和分发企业,一方面,燃气供应的安全性和稳定性直接关乎人民群众的生命财产安全,同时关系到工商企业生产服务的稳定性与连续性等,对设备和系统的高可用性具有非常高的要求。另一方面,客户企业拥有复杂的管网系统,包括输气管道、调压站和用户终端等,涉及到维护管道的完整性、监测管网压力、及时排查和修复管道泄漏等,面临着庞大的燃气管网、设备和系统的管理挑战。
为解决上述痛点,满足客户企业的运维需求,乐维结合该企业现有信息化架构,提出了建设智能化统一监控平台的方案。方案部署情况如下:
1.集中监控:包括从IT基础架构到业务系统的可用性、性能、日志等指标监控;
2.集中告警:集中告警展示、告警分发、告警处理等全生命周期管理;
3.可视化:可自动发现的网络拓扑、业务地图、投屏视图、图形视图、一览视图等可视化功能;
4.多样性报表:支持自定义、多维度、多指标报表统计功能。
乐维项目团队对客户IT资源状况进行梳理,确定项目所涉及的监控对象包括主机、网络设备、数据库、中间件、应用、业务系统、存储、虚拟化等,决定为客户打造以统一门户为中心的集中监控。
监控对象与指标详情
主机系统:IP地址,系统类型、业务名称等
网络设备:设备名称、设备类型、设备团体名、管理IP
数据库:数据库类型、数据库版本、监听端口、实例名
中间件:中间件类型、中间件版本、部署路径、IP地址,服务端口
虚拟化:虚拟化类型、型号、管理IP地址,用于监控的账号密码
服务器:服务器品牌、型号、带外管理地址、团体名
存储:存储品牌、型号、管理口地址、团体名、用于监控的账号密码
……
一般地,企业的信息化系统不是一次性建成、一成不变的,不少资源厂商出厂自带监控系统,这就导致了整个监控体系分散,各自监控各自设备,运维人员进行巡检工作时需要切换不同的监控工具,增加工作量的同时还容易遗漏故障信息。
集中监控是最高效的监控。统一门户提供了一个集中监控视图,运维人员可以在一个界面上查看和管理多个系统、设备或应用程序的状态和指标。例如,对服务器的监控,统一门户可以做到将不同品牌、不同型号的服务器进行统一纳管和展示。
同时,当发生故障或异常时,运维人员可以迅速定位问题,而不需要逐个检查每个系统。这使得故障诊断和响应更加迅速和高效,有助于减少停机时间和服务中断。
客户企业监控对象为包括涵盖了操作系统、网络设备、数据库、中间件、虚拟化、服务器、存储,总体监控对象在500以内。
鉴于客户对业务安全与稳定性的要求,乐维方案专家团队本次系统架构部署如下:
采集服务器采用主备配置。主备系统可以提供冗余的监控功能,当主监控系统发生故障或不可用时,备用系统能够自动接管监控任务,有效提高系统的可靠性、连续性和安全性,减少停机时间,并支持业务的连续性。
引入集中监控之外,乐维为客户企业打造了配套的集中告警功能。
在原有的运维体系中,客户企业由于告警信息分散,难免出现异常被忽略的情况;而且由于运维人员不可能不间断地开展巡检工作,因此巡检间隙产生的告警存在解决滞后的情况。
借助集中监控推送的数据,得以实现集中告警展示、告警分发、告警处理等全生命周期管理;当系统出现故障、达到阈值或发生重要事件时,运维人员只需要通过一个通知系统就可以收到来自不同资源的告警信息,而无需关注多个独立的告警系统。
此外,告警管理模块还提供了实时告警、全部告警、告警统计、告警升级及多方式告警通知等功能,支持邮件、短信、企微、钉钉、脚本等多种告警通知方式,一旦出现告警信息解决迟滞,告警信息将向上传递到上一级运维管理人员。
由于原有的监控系统分散、不成体系,运维人员无法感知资源间的关联关系,当故障发生的时候,不能快速评估故障节点可能带来的关联影响。为此,乐维为客户打造以网络拓扑为中心的可视化功能体系,提供一览视图、业务拓扑、投屏视图等功能。
网络拓扑描述了网络中设备之间的物理或逻辑连接方式和结构布局,通过网络拓扑可直观的看到当前网络健康状况,以及设备之间的通信路径和数据流动方式。当网络中某个设备或链路出现故障时,拓扑结构可以帮助确定故障的范围和影响。
更重要的是,系统提供网络拓扑的lldp配置功能,可以实现网络拓扑自动发现、自动关联网络设备并生成拓扑图。
方案还引入报表管理系统,提供实时报表、TOPN报表、流量报表与日报周报等功能,支持自定义、多维度、多指标报表统计。
案例客户原有的运维系统缺乏故障预判能力,解决这一问题的关键就在于报表系统。
实时报表可以提供对系统性能的实时监测、并对系统状态的即时反馈。当监控指标达到或超过设定的阈值时,实时报表可以发出警示,指引运维人员及时解决潜在的故障或问题,从而降低系统停机时间和服务中断的风险;运维人员可以随时查看关键性能指标的变化趋势,透过趋势情况,迅速发现性能瓶颈、资源紧张或异常行为,从而采取相应的优化措施,提高系统的性能和响应能力。
借助TOPN报表,运维人员可以快速识别出系统中的关键问题或异常,确定优化重点,监测趋势和变化、进行资源分配和规划以及进行容量规划和预测。例如,通过查看CPU利用率的TOPN报表,可以确定哪些进程或任务占用了大量的CPU资源,从而找到导致性能下降或系统负载过高的根本原因。
此外,运维人员还可根据不同业务场景、不同情况进行自定义报表配置。
根据乐维方案建成统一监控平台后,案例客户实现了对管网和设备产生大量的数据,包括压力、流量、温度等指标数据的实时监测、存储和分析,并籍此获得有关设备运行状况、性能趋势和故障预测的洞察。这有助于进行预防性维护和优化管网运行,提高设备的可靠性和效率。
当监控平台检测到设备或系统发生故障或异常时,借助集中告警与可视化工具,运维人员可以迅速地定位问题和进行故障诊断。通过监测和分析相关的数据和日志,运维人员可以更快地了解故障的根源,并采取相应的纠正措施,以减少故障持续时间和生产中断。
乐维基于Zabbix和企业微信的网络监控系统,通过实时获取交换机、服务器等被监控对象的相关数据,及时发现并解决问题,保证医院网络的高可用性。
View details