【实践】有效告警提升75%!电信巨头爱上乐维多Server+多Proxy架构
6198采用分布式架构:多server + 多 proxy 架构,服务器优化、增加表分区、采集方式优化等。
View detailsSearch the whole station
目前很多大中型企业如国内大银行(中、农、工、建等)、某些股份(招商、广大等)、城商行银行用了传统的监控软件如IBM Tivoli Monitoring(ITM)等,但是随着厂商支持力度减弱,同时为了满足国家层面的国产化要求,大家纷纷考虑采用zabbix等开源产品代替,而将开源从30分提高到100分的乐维智能监控为何能完美替代Tivoli呢?现在就从监控类型、采集方式、部署结构、告警管理、前端呈现、阈值配置、数据处理、权限管控、本地服务、指标量等几个方面进行比较分析。
乐维智能监控平台是基于开源企业级监控软件的深度定制产品,在继承原有高效采集
能力和灵活通知机制等功能的基础上,通过乐维多年的行业经验以及对运维的深刻理解,
以用户为中心、以场景为出发点,通过全新的UI设计,采用极简风格,操作更便捷,功
能更全面,基础监控(ITIM)拥有对存储、网络设备、服务器、操作系统、中间件、数据
库、虚拟化、云计算、容器、物联网等设备和应用智能监控能力,满足各行各业对运维管
理的需求。
IBM Tivoli Monitoring软件的基本体系结构由Tivoli Enterprise PortalClien和三个服务器主成(Tivoli Data Warehouse、Tivoli Enterprise Portal Server和Tivoli Enterprise Monitoring Server)组成。
从2010年初,在开源技术文明洗礼下,乐维以开源为始,用全新的产品思维方式,将开源提高到满分的企业级交付,乐维智能监控每年更新迭代,更符合企业现状及发展需求。相比之下,Tivoli就相形见绌了。
乐维监控
监控的全面性、开放性和可扩展性都比较强:支持多种设备类型监控,如操作系统、数据库、中间件、网络设备、服务器、存储、云、WEB、链路、动环等,具备强大的监控能力。
Tivoli
社区版操作系统,centos等支持较弱、数据库(不支持非关系数据库,如mongo DB,Elasticsearch)、中间件(MQ、Weblogic、Websphere等,开源的MQ、如ActiveMQ,RabbitMQ支持较弱),尤其是国产化类型。
乐维监控
底层开放,自由,融合多种方案,支持多种采集方式,并且相应的采集方法和计算过程可以通过脚本或命令进行了解,如果采集方法或计算过程有误,可以及时进行修改,做到了自主可控,Agent只有10M,内存一般消耗7M左右。
Tivoli
内置在代理端,由于商业闭源的关系,我们无法了解到具体指标的采集方法和计算过程,如果指标采集不正确,需要向厂家提交issue,厂家确认后打补丁Agent 达到700M,常驻内存消耗约100M。
乐维监控
支持高可用架构(包括采集服务器、网页服务器、数据库服务器、代理服务器),在使用分布式代理服务器的情况下,既能降低采集服务器的采集压力,又能够实现横向扩展,使得监控平台支持纳管更多的节点。支持多Server架构,Server既能进行统一管理,又能够单独管理。
Tivoli
HUB中心服务器采用主备模式、通过多个Remote服务器进行可以实现横向扩展,支持更多的节点和设备,同时分担HUB中心服务器数据处理压力。
乐维监控
可控制性强:指标项也存在分组的概念,但是所有采集的指标项都是可以进行合并计算和互相比较的,支持告警依赖、告警收敛、告警抑制等功能。
Tivoli
配置阈值告警时,Tivoli仅能支持同一个属性组的指标项进行比较,无法跨属性组,如CPU和内存的指标分属于两个属性组,则无法在通过一个告警情境下进行配置。
乐维监控
界面操作简便,友好的用户体验,前后端使用PHP开发,支持自定义首页内容,支持不同风格首页切换,并提供十余种Top N统计(如CPU、内存、端口流量等),支持业务拓扑、
网络拓扑、投屏视图、全景业务墙、自定义报表统计功能。
Tivoli
使用Java进行开发的前端展示,运行时需要Java支持,界面不够友好,数据展示不够精良,不适应当前互联网简洁的风格。
乐维监控
支持多达29种触发器功能,包括数值比较、无数据监测、包含、正则匹配、属性函数运算、趋势预测、日期判断等,所有采集的指标项中,任意指标项都是可以在同一个触发器中进行计算和比较的,触发器表达式支持加减乘除,支持告警依赖、告警关联等功能。
Tivoli
可操作性不强,情景支持 数值比较,检测缺失项,包含,属性函数运算(如sum,count,avg等),支持趋势预测(结合SPSS数据分析产品,需收费),情景关联(配置麻烦);支持对属性进行与或运算。
乐维监控
采用时序数据库,更高的数据摄取率,更快的查询,更强的级联存储。
Tivoli
只能用关系型数据库Oracle或者DB2,存在性能瓶颈。
乐维监控
提供完善的权限管理功能,支持企业级组织架构设置,支持自定义角色组与角色。支持针对不同用户分配对应的监控对象,并授予不同的权限(包括查看、删除、新增、修改、导入导出等)
Tivoli
支持以角色划分权限,通过逻辑视图来控制角色所管理的服务器,当服务器新增是需手动加入视图,管理比较麻烦。
乐维监控
社区持续迭代,乐维快速服务响应能力,产品快速迭代。
Tivoli
技术支持服务变弱,产品升级缓慢,难以应对持续变化的技术类型。
下面我们就用一个实例来看一下乐维监控是如何替代Tivoli的。
客户背景
该银行信息化建设蓬勃开展,IT规模逐年扩大,相应的故障次数也逐年增加。而在采用有效的管理方式之前,管理相关部门仍然采用传统的、分散、不统一的手工管理方式,且无专业团队对现有IT系统软硬件进行统一管理维护,建设、运行、支撑职责不分,缺乏有效的管理和运行监视手段,缺乏有效的针对设备/设施的资产管理。系统配套的管理手段的创建已经落后于相关建设的步伐,这样就造成了管理模式跟不上系统建设的工作矛盾。
该银行现有的生产监控系统于2011年开发完成,主要是基于IBM商业产品Tivoli,已使用7年时间。需在其基础上衍生开发了集中告警、自动化运维和大屏展示。为解决此问题,需对基础监控平台系统进行升级改造。一方面可以解决目前该银行监控系统存在的问题,另一方面也可以提高运维工作效率,降低运行风险。
乐维监控解决方案
乐维监控结合该银行发展的现状及发展需求,对银行所有软硬件设备进行管理,综合展现运维管理数据和相关统计信息,以一个综合展现平台的方式展现所有关键管理数据,通过灵活的告警设备,精确的告警检测,多样的告警推送方式,简单的告警经验积累方式,实现用户有效及时得到故障信息。提供快速故障定位,故障分析,最终实现IT运维管理要求:
1.基础监控平台需完成生产系统服务器、操作系统、数据库、中间件、存储、网络设备等的实时监控,确保能够在故障发生时提供及时的告警和操作;
2.需有比较美观的展示界面和人性化的UI,有大屏展示功能,在大屏展示上能清晰的反映出各系统运行状态和告警信息;
3.在完成对各项基础监控项的同时,需定制开发针对银行的特殊要求,监控项之间能配置关联关系,并能够生成性能分析和故障报告;
4.基础监控平台需将告警信息接入统一展示界面(与现有系统接入方式保持一致)。
方案实施
针对该银行所面临的问题,乐维智能监控利用开源技术及自身产品的高可用、可伸缩、易维护等特性,对银行的IT资产进行了梳理监控,分发告警,自动化运维处理。
总体架构
系统性能需求:
Ø 输入完网址后,进入应用系统的时间不应超过3-5妙。
Ø 录入(修改)完各项指标信息后从提交到响应不应超过5秒。
Ø 对于简单查询,输入完查询条件后从提交到响应平均不应超过10秒;对于复杂查询,平均不应超过60秒;
Ø 在预计的高峰负载条件下(最大并发系统数为1000),10%处理器能力和15%系统可用内存留出备用,偶然情况下处理器满负荷(100%)运行时间不超过30秒。
安全性需求:
Ø 系统操作过程中要保证对数据操纵的准确性、完整性、安全性和一致性。
Ø 在数据传输中应该采取相应的加密/解密技术,保证传输中数据不丢失、不失真、不被窃取、不被撰改。尤其是从互联网访问数据时,要保证数据的安全性。同时,当一段时间内用户没有操作时,系统自动断开连接。
Ø 在数据存储方面,需要将数据存储在相对安全的硬件设备上,需要对存储的数据进行定期备份,备份数据可以依照需要进行恢复;数据备份和程序备份要分开进行。
Ø 具有灵活的权限设置功能,系统管理员可以根据需要在功能层面为每个用户分配数据查询、修改等权限。
Ø 要求具有对权限设置进行检查的功能,将权限设置和对权限设置的检查分不同角色实现,有检查权限设置功能的角色用户不能设置用户权限。
1. 主机监控:RedHat、Windows、AIX、HMC
l 针对监控AIX小机LPAR信息、JFS文件系统、errpt日志信息、LVM信息和Linux不一样
l AIX的HMC数据资源的管理
l 防火墙状态和应用服务监控
2. 网络设备监控:Cisco、H3C、华为、F5、迈普、山石、深信服
l F5的层级划分、主备状态、配置同步、活跃连接数、pool
l SDN-spine、SDN-leaf监控
l 网络设备的syslog日志对接
l 网络设备日常巡检相关报表展示
l 链路探测的不同方式(NQA、SQA),登录交互探测
3. 虚拟化监控:VMWARE
l 监控Clusters、Datacenters、Datastores、Hypervisors、VM
l Vcenter平台告警对接
l Clusters、Datacenters、Datastores、Hypervisors、VM资源相互关联状态
l 模块与监控平台集成
l 消息与队列处理,对接
4. 数据库监控:Oracle、DB2、Mysql、Redis
l SQL排名-时间
l redo log
l 数据库dataguard状态、日志同步情况
5. 中间件监控:Weblogic、Tomcat、Nginx、Rabbitmq、ZooKeeper、Websphere
l 接口对接
l 控制台数据采集
l 最大连接数、当前连接数
l 健康状态
l 线程池状态
l server状态
6. 存储监控:EMC VNX、EMC VMAX、Netapp
l 需采用专门的存储工具,连接查询数据
vPoller是一个分布式VMware vSphere API代理,旨在发现和轮询vSphere对象。它使用VMware vSphere API来执行vSphere对象的发现和轮询。
vPoller使用ZeroMQ消息传递库将任务分配给工作人员并实现客户端请求的负载平衡。
vPoller可以与其他系统集成,这些系统需要访问vSphere对象,但没有对它的本机支持。
使用vPoller的方案是在发现和轮询过程中与乐维监控系统集成,以提供对VMware vSphere环境的监视。
采用分布式架构:多server + 多 proxy 架构,服务器优化、增加表分区、采集方式优化等。
View details全新的登录页,极光白、星际黑双主题,全面支持中英双语切换,增加首页快速导航栏,核心表单全部支持自定义,监控详情展示配置化等。新版本支持MySQL一键迁移...
View details乐维智能监控V5.2是以业务为中心的全栈监控平台,在显示屏、告警统计、资源列表、链路监控、监控详情、告警中心等8大功能优化再创新高。
View detailsZabbix是一个企业级的开源分布式监控解决方案,支持实施从数以万计的服务器、虚拟机、网络设备等收集百万级指标数据,扩展性强,server提供通用接口,企业可...
View details