Search the whole station

案例解读 | 某三甲医院运维监控体系升级实例

客户介绍

案例医院是一家某省省属大型三级甲等综合医院。该医院占地三百余亩,总建筑面积约26万平方米,开放床位1500张,资产总值约15亿元,其规划建设一流,拥有诸多先进配套设施,建设项目曾荣获“国家优质工程”等多个奖项。

痛点分析

作为一家大型三级甲等综合医院,客户医院拥有比较完善的科室体系,信息化程度高,配备了医院信息系统(HIS)、电子病历系统(EMRS)、临床信息系统(CIS)、影像归档和通信系统(PACS)、放射科信息管理系统(RIS)等一系列信息化系统,医疗信息化结构体系复杂。

众多的科室、复杂的信息化系统,再加上国产信创进程的持续推进,反映到运维层面,即IT资源数量庞大、品类繁杂以及IT环境异构带来的运维压力大问题。具体来说:

首先,由于原有的运维监控体系不够完善,特别是对于国产信创设备,有可能出现监控不支持、不全面(有遗漏)、不及时的问题,或者需要较长时间、较高的学习成本才能适配信创设备,不能做到一站式监控,信息部门无法整体把控全局系统的运行状态;

其次,定位困难。由于运维工具的限制,当故障发生时,运维人员往往不能第一时间定位故障点,需要依靠人工逐层分析,经过大量的检索和排查找到故障点与故障原因,才能进行故障处理,效率较为低下;

最后,故障问题与解决方案无法通过在线录入,缺乏知识沉积与共享机制,解决方案不能复用,严重依赖运维人员个人工作经验及技术能力,不同的运维人员很难对类似故障进行快速解决。

面对上述情况,客户医院有感于运维体系对医院信息化架构的支撑不足,迫切需要对运维监控系统进行升级改造。

乐维方案

基于客户医院原有的运维体系、运维痛点和对监控的需求,乐维为其量身打造了一套一站式智能运维监控解决方案,搭建统一监控平台,引入智能化告警管理系统、可视化管理系统、网络拓扑与报表管理体系,从多维度增强其运维管理能力,为支撑业务系统提供更强有力的保障。

框架介绍

统一监控平台提供从底层的资源监测、数据采集到集中监控与告警管理,再到可视化展示与报表等一站式运维监控服务。

在资源监测层面,机房、网络、云计算、应用、虚拟化、容器等监测不在话下,同时支持对接第三方监控系统推送的数据,无需对整个运维监控体系进行推倒重建,通过整合改造实现全局监控效果,提高部署效率,有效减少项目建设支出。

采集适配层面,经过多年技术攻关与技术沉淀,累计兼容数十种协议及代理,可适配和采集500+厂商、2000+设备型号数据,在监控资源种类、监控指标数量以及准确性和及时性等方面达到业内领先水平。

监控与告警方面,整合原有分散的监控体系形成集中统一的全局监控,并聚合多个第三方平台告警信息形成集中告警,。

此外,统一监控平台还提供了数种可视化管理工具,包括网络拓扑、业务拓扑、投屏视图等,可为故障诊断与决策分析提供支撑;可持续消费的知识库,沉淀与共享解决方案;报表系统,监控数据充分利用,进行异常分析与趋势预测等。

总体而言,统一监控平台可以提供以下能力:

全局把控能力:

通过构建统一监控平台,对医院业务系统和IT基础架构进行统一监控和集中管理,便于对全局运行状态进行把控。

统一监控平台将医院所有的IT资源——包括信创与非信创设备,按照操作系统、网络设备、数据库、中间件、虚拟化、服务器、存储等进行划分,完成对数百个对象统一监控;

可直观的查看设备类型、数量、告警类别、告警数量等,同时可配置资源消耗及告警组件,如CPU、内存消耗TOPN视图,最新告警视图等。

平台支持集中对象展示与自动分类展示,可直观看到当前整个IT系统运行状态是否正常,运维人员无需单独去登录每个系统、每个设备进行繁琐的巡检工作,将监控和管理有机地结合起来,提高整个IT系统及资源的运行质量,增强IT基础设施运行的稳定性和可靠性,同时提升信息部门的IT管理水平。

在监控系统中,监控首页可进行高度自定义,实现登录即运维,快速对整个系统状态进行了解,资源使用情况及系统告警情况一目了然。

异常感知能力:

异常感知包括两方面能力,故障告警与故障预知。

故障告警针对突发故障情况,如硬件损坏、网络中断等不可预知、不可抗因素,通过实时监控和发送告警信息,提醒运维人员响应故障解决。

故障预知主要针对资源消耗,如存储消耗、CPU性能消耗等,可通过预先设置阈值管理,当资源消耗达到设定阈值时触发告警;更重要的是还能通过AI智能算法,预估业务资源消耗趋势,在一定程度推断出阈值告警触发时间,抢先做好资源配置布局。

统一监控平台所赋予的集中警报功能,涵盖了实时警报、全面警报,以及告警分析等多元维度,并支持告警升级、告警收敛与多样化告警通知,致力于全面的告警防护和等级划分,同时确保了告警的可追溯性,为真正的7×24小时连续监控提供了保障,从而显著减轻了运维人员的工作压力。

除此之外,运维团队还可查阅近期的警报趋势以及警报等级的分布状况,以便迅速获取IT系统资源的监控信息,及时掌控整个系统故障问题的发生时间和分布情况。在这一过程中,运维团队还能够挖掘出系统故障的规律和类型,从而预测未来可能的故障,制定更为完善的故障应对策略,进一步提升IT系统的可靠性。此外,针对某些故障类型,团队可以获取到详尽的设备历史运行数据,以便从根源入手解决问题,并找到预防的方法。

可视化能力:

统一监控平台配备了多样数据展示方式,将复杂的数据转化为易于理解的可视化图表,如可配置的网络拓扑、业务拓扑,可通过投屏配置方式呈现,及时反映重点关注的如网络健康状况、专线链路状况等。当出现异常时,就可以快速定位故障,大幅缩短故障定位、排查时间,并为解决故障提供有效依据。

基于简化操作、提高可用性的产品理念,统一监控平台内置了多种展示模板,这些模板具有个性化设置功能,包括仪表盘、酷屏、魔方等多种应用模式,以及双轴图、条图、地图、饼图、环形饼图、扇形图、嵌套图、单值图、水滴图、散点图、气泡图、雷达图、仪表盘等多种可视化模板,开箱即用。

网络拓扑能力:

方案具备高级别的网络拓扑功能,这一功能在信息化系统中发挥着核心作用,其核心价值在于直观地展现网络运行状况,可为医院信息化架构发展规划提供方向性和节奏性的指导。据此,方案采用LLDP协议进行配置,便能够实现网络设备的自动识别、自动关联和网络设备的精准匹配,进而形成完整的网络拓扑图。

个性化报表系统

依据客户所提出的具体需求,统一监控平台还内置了个性化报表功能,能够生成并存储核心交换机端口带宽及流量使用性能的日报表和周报表;同时,还可针对特定的业务系统,提供日报表、周报表,展示数据趋势,以及性能分析结果;通过报表的告警统计功能,从不同的视角来观测整个信息化基础架构的运行状况,如操作系统告警统计、网络设备告警统计等,并按不同类别、不同等级进行展示。

客户收益:

  • 统一监控平台构建了基于全面IT资源梳理、全栈监控和实时告警的智能运维模式,完成对原有监控与告警体系的整合与升级,打造一套具备完善功能和高度灵活性的成熟运维体系,实现从数据采集、状态监测、告警管理到故障诊断与可视化分析决策的全链路一站式运维管理;
  • 实现一站式监控接入。监控系统部署在国产操作系统中,能够实现信创设备的监控接入及告警推送功能,告别杂和乱,实现规范化;
  • 为业务系统提供稳固的运营辅助,优化运维团队的日常工作流程,提升整体运维工作效率及医院的整体运营效率,为医院提供更优质的IT服务环境;
  • 提供更为高效的数据支撑,优化信息化资源配置,持续推动客户的信息化发展,为后续的信息化建设提供明确的指导方向。
  • 此外,统一监控平台建成后,助力客户医院成功通过2020年国家医疗互联互通四甲测评!
The prev: The next:

Related recommendations

Expand more!