案例解读 | 某上市制造业企业综合运维系统建设实践
1546制造业企业综合运维系统建设实践
View detailsSearch the whole station
>>>>前言
根据《证券期货业信息安全事件报告与调查处理办法》(证监会公告[2012]46号,简称《46号公告》),将信息安全事件分为特别重大事件、重大事件、较大事件、一般事件四类。根据证监会网站发布的《证券公司分类监管规定(2017修订)》,证券公司风险管理能力评价指标与标准。主要包括资本充足、公司治理与合规管理、全面风险管理、信息系统安全、客户权益保护、信息披露等6类。其中信息系统安全主要包括 IT 治理完善,信息系统管理机制独立有效;信息系统功能齐备,有效满足客户委托、交易、清算、开户、查询等需求,客户电子资料等信息安全;信息系统安全稳定运行,能够避免频繁信息安全事故或重大事故;信息系统应急预案有效,能够及时应对信息安全事故等四类。一次较大信息安全事件对证券公司就是一场灾难,影响公司的分类级别,进而影响投资者保护基金的缴纳金额,还可能影响新业务资质的申请,银行贷款授信、券商债券业务、投保基金上交额、新业务申请、股票质押等现有业务展业、并且面临更严格的合规检查。
基于以上的风险和考虑,上海某国际证券公司选择与乐维合作,希望我们帮助其设计完整的智能运维架构,本项目是整个项目的基础监控部分。
>>>>项目名称
XX国际证券(上海)有限公司基础监控项目
>>>>客户简介
XX国际证券(上海)有限公司是中国证监会首批获准设立的外资控股证券公司。公司注册资金200000万元,经营范围主要包括:证券经纪、证券投资咨询、证券自营、证券资产管理等。
>>>>项目背景
随着该公司业务的日益增长,底层IT基础设施也在不断扩张,各种硬件、信息系统故障亦随之而来。现有监控系统功能较为简单,且无有效的告警通知手段,导致故障发生时,人员响应速度较慢,无法及时定位问题所在。日常监控只能靠运维人员不停地盯着屏幕进行监视,无疑增强了IT人员的管理难度。
为解决业务支撑系统全方位的保障,一套功能完善的监控体系,已成为公司发展中的必要因素。
>>>>客户痛点
IT资产管理混乱、梳理难度大、信息缺失严重。
公司机房多、网络区域划分复杂、设备难以集中管理。
业务专线链路繁多,频繁传输大文件,稳定性难以保障。
公司重要门户缺少人员维护,每日手动进行拨测。
故障发现不及时,往往由业务人员提前发现问题。
>>>>解决方案
资产梳理:依据严谨的命名规则、遵守科学合理的分组规范,对资产进行纳管;
大屏视图:展示完整网络拓扑架构、IDC间重要链路的时时状态;
门户监测:模拟登录、多步骤监测门户服务状态,可视化展示WEB访问速度、响应时间的变化趋势;
告警中心:结合该公司已有短信、邮件系统,开启双通道告警推送模式,支持短信、邮件消息自定义推送,支持告警分析、告警历史查询等功能。
>>>>项目目标
建立XX国际证券的基础运维管理体系;
结合XX国际证券运维现状、推进基础转型建设工作;
推进XX国际证券业务监控指标体系搭建方法论的实践落地;
初步制定XX国际证券基础监控能力体系;
建立统一的基础监控中心;
建立统一的基础告警中心;
建立统一的基础业务故障管理平台;
>>>>实施方案
系统架构
架构图
该项目首次采用了基于PostgreSQL流复制+Pgpool-II HA作为监控底层数据库的分布式部署方案。通过Corosync和Pacemaker使用Pcs实现zabbix、Web、Proxy节点的高可用集群架构;灾难状态下双节点实现自动切换,极大保障了基础监控体系自身的可靠性。
>>>>
资源需求
监控系统由主采集、Web门户、数据库、代理采集四个角色组成,其中主采集、Web门户、数据库都是双节点;代理采集分为两组,每组各有两个节点。
角色 | 配置 | IP地址 | 节点数量 |
主采集 | 8C 16G 200G | 三个IP地址 | 2 |
WEB门户 | 4C 8G 200G | 三个IP地址 | 2 |
数据库 | 8C 16G 2.2T | 三个IP地址 | 2 |
代理采集一组 | 8C 8G 200G | 三个IP地址 | 2 |
代理采集二组 | 8C 8G 200G | 三个IP地址 | 2 |
>>>>服务器分布
主采集、Web门户、数据库、代理采集一组分布在机房A-XX区域,监控覆盖范围包括:机房A-XX区、机房C-XX区,覆盖率100%;
代理采集二组分布在机房B-XX区,监控覆盖范围包括:机房A-XXX区、机房B-XX区、XX区、机房C-XX区,覆盖率100%。
角色 | 数量 | 位置分布 | 监控覆盖范围 |
主采集服务器WEB门户数据库代理采集服务器 | 8台 | 机房A-XX区 | 机房A-XX区机房C-XX区 |
代理采集服务器 | 2台 | 机房B-XX区 | 机房A-XX区机房B-XX区、XX区机房C-XX区 |
>>>>监控对象
类型 | 品牌 |
网络设备 | 思科、华三、山石、飞塔、Palo Alto、F5、深信服 |
安全设备 | 深信服、绿盟、山石、飞塔 |
服务器 | 惠普、戴尔、联想、华三 |
存储 | 戴尔、昆腾 |
操作系统 | Windows、CentOS、Redhat |
虚拟化 | VMware |
数据库 | Oracle、MySQL、SQLServer |
中间件 | Tomcat、Nginx |
>>>>方案价值
该方案深度剖析了客户在基础信息管理维护方面的痛点,针对客户着重提出的问题进行解决,摒弃了运维人员以往“盯屏”式的工作模式。建立起一套由监控中心、告警中心、资产管理中心为一体的智能监控体系。实现了信息化基础设施全覆盖监控,降低了人工维护成本,亦成为公司业务稳定运行的强有力支撑。
>>>>网络投屏
网络投屏清晰展示了机房A、B、C、D之间的互联关系,以及各机房内的子网区域组成,通过设备、线路颜色可以很直观看出网络成员的运行状态,如下:
>>>>专线链路
链路监控可直观看出重要业务专线的实时带宽利用率,在利用率达到专线自身的百分比阈值后即会出发告警;亦可进一步查看某条专线的延迟、抖动情况,如下:
>>>>门户网站
与客户沟通得知,早期该公司门户偶尔会出现无法访问的情况,影响较大,公司领导基本每天早上上班前都会手动挨个进行访问检查;目前处于监控状态,Web会实时拨测,也可以详细查看门户网页的响应速度,有效避免了往日重复的人为检测,如下:
>>>>短信通知
该公司采用了短信告警通知方式,系统故障时,运维人员能够第一时间获取到事件通知,打破以往业务人员提前发现信息系统故障的窘境,如下:
>>>>客户收益
通过详细的设计与规划,建立起一套性能优越、功能强大,监控覆盖范围广且灵活的运维监控管理体系,极大保障了业务系统的稳定运行;
面临突发状况,为运维人员提供及时、可靠的告警通知,准确定位事件爆发点,使80%故障处理速度压缩在半小时以内,有效降低了运维人员的工作复杂度,缩减日常维护成本30%以上。
加入我们,享受技术乐趣
IT监控是监控IT软硬件运行状况的一套系统,它可以监控服务器、存储、网络设备、操作系统、数据库等等;它不同于我们常见的视频监控,后者多用于监控人、公共...
View details乐维基于Zabbix和企业微信的网络监控系统,通过实时获取交换机、服务器等被监控对象的相关数据,及时发现并解决问题,保证医院网络的高可用性。
View details