乐维·团队风采|清远古龙峡漂流记
3653在这个天朗气清的日子里,乐维开启了愉快的清远团建之旅
View detailsSearch the whole station
案例医院是一家某省省属大型三级甲等综合医院。该医院占地三百余亩,总建筑面积约26万平方米,开放床位1500张,资产总值约15亿元,其规划建设一流,拥有诸多先进配套设施,建设项目曾荣获“国家优质工程”等多个奖项。
作为一家大型三级甲等综合医院,客户医院拥有比较完善的科室体系,信息化程度高,配备了医院信息系统(HIS)、电子病历系统(EMRS)、临床信息系统(CIS)、影像归档和通信系统(PACS)、放射科信息管理系统(RIS)等一系列信息化系统,医疗信息化结构体系复杂。
众多的科室、复杂的信息化系统,再加上国产信创进程的持续推进,反映到运维层面,即IT资源数量庞大、品类繁杂以及IT环境异构带来的运维压力大问题。具体来说:
首先,由于原有的运维监控体系不够完善,特别是对于国产信创设备,有可能出现监控不支持、不全面(有遗漏)、不及时的问题,或者需要较长时间、较高的学习成本才能适配信创设备,不能做到一站式监控,信息部门无法整体把控全局系统的运行状态;
其次,定位困难。由于运维工具的限制,当故障发生时,运维人员往往不能第一时间定位故障点,需要依靠人工逐层分析,经过大量的检索和排查找到故障点与故障原因,才能进行故障处理,效率较为低下;
最后,故障问题与解决方案无法通过在线录入,缺乏知识沉积与共享机制,解决方案不能复用,严重依赖运维人员个人工作经验及技术能力,不同的运维人员很难对类似故障进行快速解决。
面对上述情况,客户医院有感于运维体系对医院信息化架构的支撑不足,迫切需要对运维监控系统进行升级改造。
基于客户医院原有的运维体系、运维痛点和对监控的需求,乐维为其量身打造了一套一站式智能运维监控解决方案,搭建统一监控平台,引入智能化告警管理系统、可视化管理系统、网络拓扑与报表管理体系,从多维度增强其运维管理能力,为支撑业务系统提供更强有力的保障。
框架介绍
统一监控平台提供从底层的资源监测、数据采集到集中监控与告警管理,再到可视化展示与报表等一站式运维监控服务。
在资源监测层面,机房、网络、云计算、应用、虚拟化、容器等监测不在话下,同时支持对接第三方监控系统推送的数据,无需对整个运维监控体系进行推倒重建,通过整合改造实现全局监控效果,提高部署效率,有效减少项目建设支出。
采集适配层面,经过多年技术攻关与技术沉淀,累计兼容数十种协议及代理,可适配和采集500+厂商、2000+设备型号数据,在监控资源种类、监控指标数量以及准确性和及时性等方面达到业内领先水平。
监控与告警方面,整合原有分散的监控体系形成集中统一的全局监控,并聚合多个第三方平台告警信息形成集中告警,。
此外,统一监控平台还提供了数种可视化管理工具,包括网络拓扑、业务拓扑、投屏视图等,可为故障诊断与决策分析提供支撑;可持续消费的知识库,沉淀与共享解决方案;报表系统,监控数据充分利用,进行异常分析与趋势预测等。
总体而言,统一监控平台可以提供以下能力:
通过构建统一监控平台,对医院业务系统和IT基础架构进行统一监控和集中管理,便于对全局运行状态进行把控。
统一监控平台将医院所有的IT资源——包括信创与非信创设备,按照操作系统、网络设备、数据库、中间件、虚拟化、服务器、存储等进行划分,完成对数百个对象统一监控;
可直观的查看设备类型、数量、告警类别、告警数量等,同时可配置资源消耗及告警组件,如CPU、内存消耗TOPN视图,最新告警视图等。
平台支持集中对象展示与自动分类展示,可直观看到当前整个IT系统运行状态是否正常,运维人员无需单独去登录每个系统、每个设备进行繁琐的巡检工作,将监控和管理有机地结合起来,提高整个IT系统及资源的运行质量,增强IT基础设施运行的稳定性和可靠性,同时提升信息部门的IT管理水平。
在监控系统中,监控首页可进行高度自定义,实现登录即运维,快速对整个系统状态进行了解,资源使用情况及系统告警情况一目了然。
异常感知包括两方面能力,故障告警与故障预知。
故障告警针对突发故障情况,如硬件损坏、网络中断等不可预知、不可抗因素,通过实时监控和发送告警信息,提醒运维人员响应故障解决。
故障预知主要针对资源消耗,如存储消耗、CPU性能消耗等,可通过预先设置阈值管理,当资源消耗达到设定阈值时触发告警;更重要的是还能通过AI智能算法,预估业务资源消耗趋势,在一定程度推断出阈值告警触发时间,抢先做好资源配置布局。
统一监控平台所赋予的集中警报功能,涵盖了实时警报、全面警报,以及告警分析等多元维度,并支持告警升级、告警收敛与多样化告警通知,致力于全面的告警防护和等级划分,同时确保了告警的可追溯性,为真正的7×24小时连续监控提供了保障,从而显著减轻了运维人员的工作压力。
除此之外,运维团队还可查阅近期的警报趋势以及警报等级的分布状况,以便迅速获取IT系统资源的监控信息,及时掌控整个系统故障问题的发生时间和分布情况。在这一过程中,运维团队还能够挖掘出系统故障的规律和类型,从而预测未来可能的故障,制定更为完善的故障应对策略,进一步提升IT系统的可靠性。此外,针对某些故障类型,团队可以获取到详尽的设备历史运行数据,以便从根源入手解决问题,并找到预防的方法。
统一监控平台配备了多样数据展示方式,将复杂的数据转化为易于理解的可视化图表,如可配置的网络拓扑、业务拓扑,可通过投屏配置方式呈现,及时反映重点关注的如网络健康状况、专线链路状况等。当出现异常时,就可以快速定位故障,大幅缩短故障定位、排查时间,并为解决故障提供有效依据。
基于简化操作、提高可用性的产品理念,统一监控平台内置了多种展示模板,这些模板具有个性化设置功能,包括仪表盘、酷屏、魔方等多种应用模式,以及双轴图、条图、地图、饼图、环形饼图、扇形图、嵌套图、单值图、水滴图、散点图、气泡图、雷达图、仪表盘等多种可视化模板,开箱即用。
方案具备高级别的网络拓扑功能,这一功能在信息化系统中发挥着核心作用,其核心价值在于直观地展现网络运行状况,可为医院信息化架构发展规划提供方向性和节奏性的指导。据此,方案采用LLDP协议进行配置,便能够实现网络设备的自动识别、自动关联和网络设备的精准匹配,进而形成完整的网络拓扑图。
依据客户所提出的具体需求,统一监控平台还内置了个性化报表功能,能够生成并存储核心交换机端口带宽及流量使用性能的日报表和周报表;同时,还可针对特定的业务系统,提供日报表、周报表,展示数据趋势,以及性能分析结果;通过报表的告警统计功能,从不同的视角来观测整个信息化基础架构的运行状况,如操作系统告警统计、网络设备告警统计等,并按不同类别、不同等级进行展示。