案例解读丨深圳某证券股份公司基础监控实践

2021-11-04 12:09

作者:乐维

摘要:

作为一家证券行业公司,随着与日俱增的业务量以及运维服务成本的增加,基础服务运维保障的压力也随之增大。面对庞大的设备体量,急需要一套稳定、高效且能降低目前运维成本的监控产品协助基础保障服务人员完成日常的

一、前言

证券股份有限公司拥有齐全的证券业务牌照,经营范围涵盖:证券经纪;证券投资咨询;与证券交易、证券投资活动有关的财务顾问;证券(不含股票、中小企业私募债券以外的公司债券)承销;证券自营;证券资产管理;证券投资基金代销;为期货公司提供中间介绍业务;融资融券;代销金融产品。公司还通过全资子公司从事投资银行业务,通过全资子公司从事期货业务,通过全资子公司从事私募股权基金管理业务,通过全资子公司从事股权投资、创新金融产品投资等另类投资业务,以及通过控股子公司开展基金管理业务。

二、项目背景

作为一家证券行业公司,随着与日俱增的业务量以及运维服务成本的增加,基础服务运维保障的压力也随之增大。面对庞大的设备体量,急需要一套稳定、高效且能降低目前运维成本的监控产品协助基础保障服务人员完成日常的维护工作。

三、项目诉求

· 数量庞大且负责业务种类繁多,所以目前主要是由业务部门以及运维保障的同事共同使用,运维保障的同事侧重关注设备底层数据问题产生的告警,设备业务负责人分析、提处理需求。

· solarwinds操作界面分布复杂,无中文化友好界面等,业务人员在排查阶段操作不畅顺且监控指标覆盖不全面,监控频率低、监控颗粒较为粗糙,导致排障效率较低,影响问题处理进度

· 维保费用工作人员工作量大,与实际收益不成正比。

四、项目目标

为保障改证券公司信息化系统更加完善,为业务、运维保障人员提供有效帮助、更高效率解决问题,同时降低维护成本,有必要建立一套针对信息化的监控平台做到更贴合环境得到监控及早发现故障、提早判断预知故障及时处理,以及合理利用信息化基础资源,达到最大化资源使用,同时为信息化建设提供未来建设提供合理保障,使得公司业务能高效运作。

五、乐维智能监控解决方案

乐维智能运维监控平台,是国产化、高性能一体化集中监控平台,能够做到及早发现故障、提早判断预知故障及时处理,以及合理利用信息化基础资源,达到最大化资源使用,同时为信息化建设提供未来建设提供合理依据,使得业务系统信息化建设健康发展。

结合改证券公司现有信息化建设架构,建设统一监控平台部署内容如下:

1、集中监控:包括从IT基础架构到业务系统的可用性、性能、日志等指标监控;

2、告警:集中告警展示、告警推送设备负责人;

3、可视化视图:可自动发现的网络拓扑、业务地图、投屏视图、图形视图、一览视图等可视化功能;

4、多样性报表:支持自定义、多维度、多指标报表统计功能;

5.1底层架构设计

改证券公司本次监控对象为包括涵盖了操作系统、数据库、中间件、虚拟化、服务器、应用、web拨测,总体监控对象在5000个以内。

定义本次系统架构部署如下:


架构说明:

处理区、可视化区(Server、WEB):

只做计算不做数据采集

门户访问

采集区(proxy代理):

多台代理分布不同区域进行数据采集

数据压缩回传

存储区(数据库):

读写分离

数据分区、数据压缩

5.2架构资源配置

5.3监控对象收集

前期监控对象搜集,通过和客户交流、沟通,搜集相关需求及本次需要纳入监控的相关对象分类,包括操作系统、数据库、中间件、虚拟化、服务器、应用、web拨测。

主机系统:IP地址,系统类型、业务名称等

数据库:数据库类型、数据库版本、监听端口、实例名

中间件:中间件类型、中间件版本、部署路径、IP地址,服务端口

虚拟化:虚拟化类型、型号、管理IP地址,用于监控的账号密码

服务器:服务器品牌、型号、带外管理地址、团体名

应用:关注的服务、端口以及服务上的数据库信息内容等

Web拨测:访问返回的关注值

5.4统一监控平台

实现信息化基础资源全覆盖监控,保障了监控自动化管理,通过设置配置即可达到相关调整。降低人工成本,使用运维人员去做对业务更有价值的工作。

监控对象集中展示

自动分类展示,实现不同对象的统计、健康状况、告警数量,从整体上可直观查看当前所有IT资源对象的,同时从整体上查看当前对象的CPU top、内存使用率top等,另外可整体直观看到当前整个IT状况是否正常,以及每日产生告警数量、告警恢复情况。

为运维人员提供更准确、更直观的整体状况查看。无需单独去登录每个系统、每个设备进行繁琐的巡检工作。

5.5告警配置

运维人员可划分时间查看告警,可了解整个资源运行状况,避免信息化资源出现告警隐患而人员未关注到时告警遗漏,更加准确的反馈了整体健康状况,分别从不同等级、告警事件、告警时长直观的呈现,让运维人员心中有数。

另外,对于以往的告警也可有迹可循,当一个告警反复出现,或在每日某一个时间段出现时,可根据全部告警,进行综合查看,如一个一般级别告警,但是反复出现也需要引起关注。

集中告警功能包含了实时告警、全部告警、告警统计等多个维度,匹配运维人员使用习惯,做到告警无遗漏、告警分等级,告警可追溯。从整体上减轻了运维人员工作,且真正做到7* 24小时实时监控,为运维管理工作代理了直观的价值。

5.6报表管理

运维工作除了对日常信息化健康运行关注外,还需要对整体资源使用情况做到合理分配,当资源需要进行调整时,可有效进行整改、达到资源最大化利用率。也可为单个业务系统创建报表,提供日报、周报,展现趋势数据提供性能分析。

另外,对于整个信息化基础架构运行状况,也可通过报表的告警统计,不同维度查看告警统计,操作系统告警统计、网络设备告警统计,以不同类别、不同等级分别展示。为信息化建设可持续发展提供了有效帮助。

六、客户收益

1.通过IT资产全面梳理、全栈监控、实时告警等新型智能运维手段,建设出一套完善且灵活的成熟运维体系,告别传统“救火”式运维,运维效率提升10倍,企业运维成本降低超过50%。

2.在确保功基础功能的前提下,设计出更友好、简易的操作界面,做到所见,所点即所需,更便于在内部推广使用,为公司提供更坚实的后勤保障,更加有效的保障日常工作,为客户提供更好的服务。

在接替原平台的告警内容后,继续深化到现有场景上的痛点关注问题,以多种灵活的监控方式满足基础运维场景下的监控点需求。