Search the whole station

案例解读:上海某“双一流”高校统一监控告警平台建设实践

一、项目背景

上海某高校是由上海市人民政府与中国科学院共同举办、共同建设,由上海市人民政府负责日常管理的全日制普通高等学校。自成立以来,学校努力建设和发展成为一所小规模、高水平、国际化的研究型、创新型大学。2022年,该校入选第二轮“双一流”建设高校。

虽然该高校规模不大,但由于起点高、定位高,在教学、行政管理等方面数字化、信息化程度相当高,整体IT资源规模并不小。与不少高校类似地,该高校IT运维也面临着人员配比不足、运维管理深度不够、粒度不足等问题,IT系统故障造成的教学问题时有发生,给高校的师生带来了一定的负面影响。

二、乐维方案

为克服人员少、资源多、运维管理深度、粒度不足等问题,2020年,经审评,该高校图信中心决定采用乐维统一监控告警解决方案,并启动了统一监控告警平台建设。

方案以基础架构监控平台为依托,结合可视化大屏、集中告警、报表系统、权限管理、业务系统管理等模块,实现对IT基础架构和教学系统等统一集中监控和告警管理,为运维管理提供支撑。

1.分布式架构,一站式监控

经梳理该高校的内部网络环境,该高校需纳管监控对象多达1700多个,包括操作系统、网络设备、服务器、数据库、web、中间件、存储、虚拟化平台、KVM等,对监控系统的性能要求较高。

对此,乐维方案采用分布式实施的方式,有效降低大规模监控对象对监控系统服务器的压力,实现对主机、网络、存储、数据库、中间件、硬件、环控和虚拟化等实现一站式监控,并对各IT基础架构的指标逐一分析、管理,保障业务高效稳定的运行。

2.多样化展示大屏,集中展现重要指标

方案还引入了多样化数据展示大屏。该高校原有的监控体系的展现方式不够友好——指标分散,不能集中展现重点监控指标。乐维定制数据大屏能够根据需要、自定义集中展现重要监控指标。例如,可以集中展现资源占用TOP10、告警对象TOP10、告警时间轴、网络出口流量、网络在线人数、统一认证人数以及网络拓扑等数据。通过多维度的数据,统一展示业务、网络以及在线人数等情况。

3.多平台联动,集中告警展示

方案还实现与原有zabbix监控、动环系统的联动。告警中心模块将原先的zabbix的告警信息和客户的动环系统中的告警信息集成到一起,实现一个平台纳管三个系统,统一展示,避免在多个告警中心来回切换,从而提高监控效率。这也是乐维以开放理念打造产品的体现,除了zabbix、动环系统,乐维监控还可实现对多种告警平台的数据联动。

4.系统化报表,自定义巡检

方案还打造了新的报表体系,实现资源使用率与系统告警级别联动。例如,通过设定系统正常运行时的CPU总使用率、物理内存总使用率和磁盘空间使用率等指标,结合告警系统,当监测到资源使用率异常,如超过设定值时触发告警,提示运维人员故障发生的潜在可能性,预判故障发生,运维人员就有可能将故障解决在萌牙状态,防患于未然。

特别地,基于高校IT资源使用明显具有节律性、结构性的特点,方案还提供了自定义巡检时间和业务功能,可以在IT资源使用的高峰期加大巡检频率,在使用低谷降低巡检频率,在保障业务系统稳定运行的同时降低运维成本。

例如,高校的选课系统只在特定的时间向学生开放,期间大量学生同一时间涌入,需要特别关注系统运行状况,加大巡检频率。

5.统一权限,权责明晰

方案引入了新的权限管理机制。该高校的IT环境业务系统现纳管50+,新的纳管机制对纳管的主机进行了管理权限划分,每一位老师均只能看到自己负责的系统、告警、告警通知以及对应的功能,做到数据权限与功能权限统一管控,避免权限交叉可能带来的权责混乱、相互推诿的情况。

6.特色业务视角,全方位资源管理

方案支持对各类系统资源进行分类纳管,可以按照操作系统、WEB、网络设备、数据库等不同类型分别展现纳管资源概况,实现全方位资源管理。

针对该高校IT环境业务系统较多的情况,乐维方案引入了独具特色的资源管理方式——业务视角。透过业务系统名称,可以查看对应系统下资源类型、详细资源信息等。如图,选择zabbix后,可以直观地查看所属web、操作系统、数据库等资源数量及告警信息等。

三、客户收益

经过一年的建设,该高校统一监控告警平台于2021年底完成一期建设并通过验收。借助此平台,该高校信息化整体运维保障能力和响应速度得到了极大地提升,信息化服务质量显著提高。

乐维统一监控告警平台为该高校IT运维带来的价值表现为:

1、全面监控,及时告警。对常规资源使用情况、机房环境、设备部件等故障进行及时告警,提高了运维响应速度

2、可自定义的系统巡检报表,更合理地规划和分配IT资源,提高资源利用率

3、通过图形界面管理业务系统相关信息,业务流程直观展示,避免业务系统资源遗漏

乐维社区
The prev: The next:

Related recommendations

Expand more!