案例解读丨华南某电子集团IT监控实践

2021-10-14 13:20

作者:乐维

摘要:

案例解读丨华南某电子集团IT监控实践一、前言该集团成立于1980年,是一家以消费电子业务为基础,以“科技+投控”复合能力为支撑,向战略性新兴产业升级、向产业地产业务拓展、向互联网及供应链服务业务延伸的公司,

案例解读丨华南某电子集团IT监控实践

一、前言

该集团成立于1980年,是一家以消费电子业务为基础,以“科技+投控”复合能力为支撑,向战略性新兴产业升级、向产业地产业务拓展、向互联网及供应链服务业务延伸的公司形成了“产业产品业务群、科技园区业务群、平台服务业务群以及投资金融业务群”四大业务群协同发展的局面。已完成多媒体彩电、移动通信、白色家电等业务的公司化运营,新成立科技产业园事业本部、半导体事业部、环保科技事业部、供应链金融事业部等战略新兴业务部门。投资并购多家高科技企业,打造新业务增长极、实现多元化拓展。

二、项目背景

集团IT信息化正处于爆发增长期,随着业务的发展,当前运维工具难以应对日渐复杂的运维场景。目前主要痛点为业务信息系统众多,缺乏统一监控管理平台,难以主动感知业务系统用户体验情况,系统出现问题无法快速定位根源,缺少对基础设施、日志的统一告警能力、故障告警不及时。运维自动化工具缺失,大量运维操作依赖人工,效率低下且存在误操作风险,运维效率和安全性需要进一步提升。

三、项目诉求

· 缺乏集中监控的完整体系:运维对象复杂且多,需搭建一套完整运维监控平台,实现集团股份有限公司IT基础资源、网络、服务器、数据库、用户体验、应用、日志集中监控

· 缺少IT资产配置管理:众多的基础IT资源间关系的难发现和难维护,需建立完整的IT资产配置管理数据库

· 告警处理效率低下:告警处理主要基于运维人员的经验去判断,很难精确定位根源告警和故障发生点,无法实现故障快速定位、告警不够全面及时。

四、项目目标

  通过统一监控平台,全面、准确地了解该集团的业务系统状态,对关键性业务系统纳入统一监控管理平台监控范畴,针对重点业务的应用提供性能监控,同时对相应的业务架构逻辑结构进行可视化。

项目总体目标如下:

1)通过统一监控管理平台,保障业务系统稳定的良性循环;

2)通过立体监控体系,全面、准确地监控业务系统的健康;

3)通过统一告警流程机制,快速定位问题,提高运维效率;

4)全面采集不同层级数据,实现业务与IT数据融合分析与大屏展示;

5)梳理业务场景、定制标准化规范及流程,实现自动化运维。

五、乐维智能监控解决方案

乐维智能运维监控平台,是国产化、高性能一体化集中监控平台,能够做到及早发现故障、提早判断预知故障及时处理,以及合理利用信息化基础资源,达到最大化资源使用,同时为信息化建设提供未来建设提供合理依据,使得业务系统信息化建设健康发展。

   结合该集团现有信息化建设架构,建设统一监控平台部署内容如下:

1、集中监控:包括从IT基础架构到业务系统的可用性、性能、日志等指标监控;

2、集中告警:集中告警展示、告警分发、告警处理等全生命周期管理;

3、可视化视图:可自动发现的网络拓扑、业务地图、投屏视图、图形视图、一览视图等可视化功能;

4、多样性报表:支持自定义、多维度、多指标报表统计功能;

5、大屏展示:大屏幕集中监控实现自定义展示页面;

5.1底层架构设计

该集团本次监控对象为包括涵盖了操作系统、网络设备、数据库、中间件、虚拟化、服务器、存储,总体监控对象在600个以内。

定义本次系统架构部署如下:

5.2架构资源配置

5.3监控对象分批次纳管

完成监控平软件部署后,根据搜集表进行分批次添加监控对象。

· 操作系统纳管

    由于操作系统需要安装agent用于数据采集,结合现场部署环境、调整好安装脚本,配置好serverIP地址,采集方式后,实现快速一键安装agent。

Linux 首次安装需要通过root权限,完成首次安装后后续可以通过创建的zabbix用户实现数据采集aget开启或关闭,另外通过配置定时任务计划,判定agent进程是否正常,每五分钟检查一次,若检查到agent进程异常,即调用自动开启脚本将agent开启,省去后续agent维护工作,实现自动化。

Windows首次安装也需要通过管理员权限,完成后实现服务自动启动。

· 服务器、存储设备纳入监控

由于服务器不同厂商、不同型号存在内部mib库不一致情况,前期搜集时即核对模板样例,现有模板可直接准备,导入备用。本次监控服务器、存储基本属于常规型号,现有模板基本涵盖,快速制作模板,体现了zabbix 快速定义模板的灵活性。

· 网络设备

根据搜集该集团网络设备,主要为思科网络设备、华三网络设戴尔网络设备,核对了为模板库,都有现有模板,结合前期信息搜集时的管理IP地址、团体名,实现快速添加监控对象。

· 虚拟化

该集团虚拟化使用的时VMWare ,并搭建了vcenter统一管理。结合乐维模板监控即采集python脚本,实现对象添加后,自动发现出宿主机、虚拟机、datastor三个主要对象并自动发现出其层级对应关系。

· 数据库

该集团数据库主要为His系统使用的Oracle 11g rac。监控Oracle数据需要在数据库创建用于监控的用户,并完成授权,保障用于监控的用户可select数据库相关性能视图,获取整个数据库运行状况。其操作存在对数据库变更,通过和客户反馈、沟通并确认风险等级及对应措施后,完成Oracle数据库纳入监控,查看监控平台数据库运行状况正常。

· 网络专线链路配置

该集团其网络结构与外部智能终端研究所、呼叫中心关联,多数专线线路的通讯状态对于该集团业务运行至关重要,因此单独使用监控平台链路添加,且这两条网络对端设备不在本地,不能实现监控那关,通过与专网接入的交换机,配置NQA,实现本段设备探测对端网络的链路监控,获取链路健康状况、带宽利用率、链路丢包率等信息。

· 网络拓扑展现

   网络拓扑是整个信息化的交通枢纽,网络的影响通常都是区域性影响,因此网络拓扑的展示可直观的看到当前网络健康状况,监控平台网络拓扑配置lldp 实现网络拓扑自动发现、自动关联网络设备生成拓扑图

5.4告警配置

完成监控对象纳管后,通过和客户沟通、培训,进一步确认相关监控阈值配置,即根据客户实际情况配置告警阈值,当监控指标达到阈值设置后,即触发告警。同时将不同阈值对应到不同告警级别,分别为紧急、严重、一般这几个常用级别。

·服务器发生重启或者宕机。

服务器告警指标:ping 、cpu使用率达到80%以上、内存使用率95%、磁盘空间使用率达到98%

·数据库重点规则

数据库连通性、表空间使用率95%、数据库文件系统使用率95%

5.5大屏展示配置

投屏展示通常可直观、简介的查看整个IT资源或某个业务的实际情况,经过和客户交流沟通后,确定本次创建两个投屏展示,分别如下

5.5报表系统个性化配置

IT运维通常会有相应统计信息,包括日产产生的告警信息,及相关业务性能分析,本次根据该集团建设,创建应用系统基础资源使用性能报表,并自定义设定成周报模式,每周会自动生成报表。

六、方案价值

· 统一监控:实现信息化基础资源全覆盖监控,保障了监控自动化管理,通过设置配置即可达到相关调整。降低人工成本,使用运维人员去做对业务更有价值的工作。

· 监控对象集中展示自动分类展示,实现不同对象的统计、健康状况、告警数量,从整体上可直观查看当前所有IT资源对象的,同时从整体上查看当前对象的CPU top、内存使用率top等,另外可整体直观看到当前整个IT状况是否正常,以及每日产生告警数量、告警恢复情况。

为运维人员提供更准确、更直观的整体状况查看。无需单独去登录每个系统、每个设备进行繁琐的巡检工作。

告警配置:运维人员可查看最近6小时、最近12小时及最近24小时告警,可了解整个资源运行状况,避免信息化资源出现告警隐患而人员未关注到时告警遗漏,更加准确的反馈了整体健康状况,分别从不同等级、告警事件、告警时长直观的呈现,让运维人员心中有数。

· 可视化管理:运维管理通常需要直观呈现,重点关注的对象,通过配置网络拓扑、业务拓扑,并通过投屏配置方式呈现,及时反映重点关注的如网络健康状况、专线链路状况等。当出现异常时,可快速定位故障,大大缩短故障定位、排查时间,为解决故障提供了有效依据。将前端业务影响降至最低。为整个运维工作带来了最大的便利。

· 报表管理:运维工作除了对日常信息化健康运行关注外,还需要对整体资源使用情况做到合理分配,当资源需要进行调整时,可有效进行整改、达到资源最大化利用率。也可为单个业务系统创建报表,提供日报、周报,展现趋势数据提供性能分析。

另外,对于整个信息化基础架构运行状况,也可通过报表的告警统计,不同维度查看告警统计,操作系统告警统计、网络设备告警统计,以不同类别、不同等级分别展示。为信息化建设可持续发展提供了有效帮助。

七、客户收益

1.通过IT资产全面梳理、全栈监控、实时告警等新型智能运维手段,建设出一套完善且灵活的成熟运维体系,告别传统“救火”式运维,运维效率提升10倍,企业运维成本降低超过50%。

2.为该集团提供更坚实的后勤保障,更加有效的保障运维人员日常工作,使得运维人员更加顺心的工作,为社会提供更好的服务。

3.提供更有效的数据依据,推进集团信息化建设可持续发展,让信息化资源更合理的应用、最大化应用,为信息化建设提供导向。