案例解读 | 乐维助力某期货企业综合运维平台建设实践
1698基于客户运维痛点与项目建设目标,乐维方案团队对项目进行梳理,并对项目建设进行具体规划:以运维门户、统一监控、集中告警管理为核心,辅以资产管理、可视...
View detailsSearch the whole station
北京某产业园-数字化大屏展示
北京某产业园2000年在海淀分局登记成立,公司经营范围包括住宿、物业管理、餐饮服务(含凉菜)等,于2019年入选年度国家中小企业公共服务示范平台名单。
随着机房设备的逐步增多,该产业园的运维管理工作产生了较大压力,无法及时得知机房所属设备的运行状态,没有一套统一的运维监控平台,直接导致了:
首先,IT运维部门不能提前预知故障隐患,提前排除可能发生故障的隐患;
其次,当故障发生时,IT人员不能第一时间发现故障;
再次,IT人员分析处理故障,没有一个从IT基础架构到业务可用性的全栈监控工具,靠人工逐层分析,效率低下;
最后,排查故障之后,下次再出现类似的故障时,没有有效的、可持续消费的知识记录。
综上,为了解决业务支撑系统全方位的保障,建设一套统一、开放、自主、可持续发展全链路运维监控平台已成为必要。
为完善该产业园信息化系统,向运维人员提供有效帮助,更高效率开展运维工作。在现有信息化相关维护前提下,有必要建立一套针对信息化的监控平台,做到及早发现故障、提早判断预知故障并及时处理,以及合理利用信息化基础资源,达到最大化资源使用,同时为信息化建设提供未来建设提供合理依据,使得信息化建设健康发展。
结合该产业园现有信息化建设架构,建设统一监控平台部署内容如下:
1. 集中监控:包括从IT基础架构到业务系统的可用性、性能、日志等指标监控
2. 集中告警:集中告警展示、告警分发、告警处理等全生命周期管理
3. 可视化视图:可自动发现的网络拓扑、投屏视图等可视化功能
4. 多样性报表:支持自定义、多维度、多指标报表统计功能
5. 大屏展示:大屏幕集中监控实现自定义展示页面
该项目主要监控网络设备,基于网络拓扑图实现核心链路的集中监控。
前期监控对象搜集,通过和客户交流、沟通,搜集相关需求及本次需要纳入监控的相关对象。
主机系统:IP地址,系统类型、业务名称等
网络设备:设备名称、设备类型、设备团体名、管理IP
完成相关对象搜集后,结合本次监控对象的数量、类型、监控频度,综合判定本次架构设计,制定详细实施计划。
该产业园本次监控对象为网络设备30台。
本次系统架构说明:
本次监控通过Vcenter虚拟化平台进行监控系统部署,基于Vcenter虚拟化平台的故障迁移策略保障监控系统的可用性, ITIM系统部署在一台服务器上,采用单机部署,主要进行交换机设备监控并实现所需监控告警及大屏展示功能。
完成监控系统部署后,根据搜集表进行分批次添加监控对象。
由于操作系统需要安装agent用于数据采集,结合现场部署环境、调整好安装脚本,配置好serverIP地址、采集方式后,实现快速一键安装agent。
Linux 首次安装需要通过root权限,完成首次安装后,后续可以通过创建的zabbix用户实现数据采集agent开启或关闭,另外通过配置定时任务计划,判定agent进程是否正常,每五分钟检查一次,若检查到agent进程异常,即调用自动开启脚本将agent开启,省去后续agent维护工作,实现自动化。
Windows首次安装也需要通过管理员权限,完成后实现服务自动启动。
根据搜集的产业园网络设备信息发现其主要为华为交换机设备,与现有华为监控模匹配后,结合前期信息搜集时的管理IP地址、团体名,实现快速添加监控对象。
完成监控对象纳管后,通过和客户沟通、培训,进一步确认相关监控阈值配置,即根据客户实际情况配置告警阈值,当监控指标达到阈值设置后,即触发告警。同时将不同阈值对应到不同告警级别,分别为严重、一般、次要这几个常用级别。
严重故障:(示例)
一般告警:(示例)
次要故障:(示例)
投屏展示通常可直观、简洁地查看整个IT资源或某个业务的实际情况,经过和客户交流沟通后,确定本次创建的投屏展示,分别如下:
实现信息化基础资源全覆盖监控,保障了监控自动化管理,通过设置配置即可达到相关调整。降低人工成本,使运维人员去做对业务更有价值的工作。
系统提供监控对象分类展示功能,实现不同对象的统计、健康状况、告警数量,从整体上可直观查看当前所有IT资源对象的,同时从整体上查看当前对象的CPU top、内存使用率top等,另外可整体直观看到当前整个IT状况是否正常,以及每日产生告警数量、告警恢复情况。
为运维人员提供更准确、更直观的整体状况查看。无需单独去登录每个系统、每个设备进行繁琐的巡检工作。
运维人员可查看最近6小时、最近12小时及最近24小时告警,可了解整个资源运行状况,避免信息化资源出现告警隐患而人员未关注到时告警遗漏,更加准确的反馈了整体健康状况,分别从不同等级、告警事件、告警时长直观的呈现,让运维人员心中有数。
另外,对于以往的告警也可有迹可循,当一个告警反复出现,或在每日某一个时间段出现时,可根据全部告警,进行综合查看,如一个一般级别告警,但是反复出现也需要引起关注。
集中告警功能包含了实时告警、全部告警、告警统计等多个维度,匹配运维人员使用习惯,做到告警无遗漏、告警分等级,告警可追溯。从整体上减轻了运维人员工作,且真正做到7* 24小时实时监控,为运维管理工作代理了直观的价值。
运维管理通常需要直观呈现,重点关注的对象,通过配置网络拓扑、业务拓扑,并通过投屏配置方式呈现,及时反映重点关注的如网络健康状况、专线链路状况等。当出现异常时,可快速定位故障,大大缩短故障定位、排查时间,为解决故障提供了有效依据,将前端业务影响降至最低,为整个运维工作带来了最大的便利。
运维工作除了对日常信息化健康运行关注外,还需要对整体资源使用情况做到合理分配,当资源需要进行调整时,可有效进行整改、达到资源最大化利用率。也可为单个业务系统创建报表,提供日报、周报,展现趋势数据提供性能分析。
另外,对于整个信息化基础架构运行状况,也可通过报表的告警统计,不同维度查看告警统计,操作系统告警统计、网络设备告警统计,以不同类别、不同等级分别展示,为信息化建设可持续发展提供了有效帮助。
1. 通过IT资产全面梳理、全栈监控、实时告警等新型智能运维手段,建设出一套完善且灵活的成熟运维体系,告别传统“救火”式运维,运维效率提升10倍,企业运维成本降低超过50%。
2. 提供更坚实的后勤保障,更加有效的保障工作人员日常工作,使得工作人员更加顺心的工作,进一步增强工作幸福感。
3. 提供更有效的数据依据,推进企业信息化建设可持续发展,让信息化资源更合理的应用、最大化应用,为信息化建设提供导向。
4. 通过大屏进行展示,使运维工作者清晰直观的了解到所关注信息,美观、简洁、富有科技信息化的大屏画面赏心悦目,增加企业展示面,也提升了运维人员的工作体验。
更多客户案例请持续关注乐维官网或关注下方乐维社区公众号。
基于客户运维痛点与项目建设目标,乐维方案团队对项目进行梳理,并对项目建设进行具体规划:以运维门户、统一监控、集中告警管理为核心,辅以资产管理、可视...
View details采用分布式实施,分别集中监控线上(阿里云) IT基础架构和线下IT基础架构,将不同类别的基础架构统一在一个平台上实现监控功能。分别对主机、网络、存储、数据...
View details