2021-01-20 02:52
摘要:
通过乐维产品及服务,实现对所有软硬件设备进行监控,综合展现运维管理统计信息和数据,以一个综合展现的平台展现所有关键管理数据,实现用户有效及时得到故障信息,提供快速故障定位,故障分析,容量预测,最终实现
一、项目名称
国家电网XX省级电力有限公司-自动化运维服务项目
二、项目背景
公司内网云和外网云平台已完成建设,内网云平台可提供2400台云服务器、270套云数据库、1072TB对象存储,每天可处理12万次大数据分析任务。外网云平台可提供600台云服务器和190台云数据库,支撑了公司数据中台、业务中台和上百套业务系统云上稳定运行。为保障云平台、数据中台、业务中台和业务系统的正常运行,加强云平台的调度控制能力,需要提高云平台的基础监控能力。
随着云平台承载的业务系统数量日益增长,平台性能方面的压力也与日俱增,从平台运维角度来说,公司需要一个功能完善的监控体系,来及时获悉平台的各项性能指标,保障平台的稳定可用。目前,阿里云提供的平台侧监控功能分散在天基、铜雀、TAC、ASO等平台,各平台间监控内容存在重复,缺少功能完整的统一入口。业务侧监控无成型产品,无法实现故障的及时定位,故障修复周期较长。
三、基础架构监控
采用分布式实施,分别集中监控线上(阿里云) IT基础架构和线下IT基础架构,将不同类别的基础架构统一在一个平台上实现监控功能。分别对主机、网络、存储、数据库、中间件、硬件和虚拟化等实现一站式监控,针对各IT基础架构的指标逐一分析、管理,保障业务高效稳定的运行。
四、数据库容量增长
针对所有线上oracle数据库,定时把表空间、ASM、IO、数据库配置等参数,定时写入到一个新的数据库,通过对新数据库的监控,对比各业务系统数据库的变化,统计筛选性能使用过高的数据库,并给出优化建议。
五、容量趋势预测
从运维人员出发,在节假日,由于容量资源使用问题,运维人员还要进行资源扩容。针对操作系统磁盘空间使用百分比,inodes空间使用百分比,数据库表空间剩余百分比,ASM使用百分比。根据前期数据的变化,预测后期变化,推断后一个月什么时间段会达到阈值。
六、台账管理
对所有线上、线下操作系统账号进行管理,可直接在界面查看各操作系统已创建的账号、最新修改时间、账号的有效期等。
七、业务系统管理
针对客户环境业务系统较多的情况,通过界面方式对业务系统进行管理,可直观查看业务系统类型、负责人、包含服务器等信息。
当出现故障时,值班台可通过界面查询系统维护相关人员,通知其处理故障问题。
八、摄像头设备监控指标详情
SNMP指标 | ICMP |
报警输入通道个数 | |
报警输出通道数 | |
音频输入数量 | |
清晰频道数量 | |
视频输入通道数量 | |
视频输出数量 | |
设备类型 | |
动态网络地址掩码 | |
动态网络地址 | |
制造商代号 | |
MAC地址 | |
动态网络地址网关 | |
设备制造商 | |
音频能力 | |
CPU使用百分比 | |
静态网络地址网关 | |
支持网络访问类型 | |
静态网络地址 | |
静态网络地址掩码 | |
RTSP回溯支持 | |
时间同步地址 | |
网络管理主机地址 | |
支持本地存储 | |
内存大小总 | |
系统时间 | |
视频网络传输类型 | |
视频编码类型 | |
设备版本 | |
软件版本 | |
内存使用率 | |
磁盘使用率 | |
磁盘大小 | |
SDK指标 | 名称 |
类型名 | |
产品线 | |
型号 | |
序列号 | |
设备时间 | |
主控版本 | |
编码版本 | |
WEB版本 | |
报警输入个数 | |
报警输出个数 | |
232串口个数 | |
485串口个数 | |
网络口个数 | |
硬盘控制器个数 | |
硬盘个数 | |
通道数量 | |
VGA口数量 | |
USB口数量 | |
辅口数量 | |
语音口数量 | |
是否支持远程开机 | |
ID管理 | |
最大IP通道数量 | |
零通道个数 | |
是否支持智能搜索 | |
是否支持备份 | |
是否支持压缩参数能力获取 | |
是否支持多网卡 | |
是否支持远程SADP | |
是否支持Raid卡功能 | |
是否支持IPSAN搜索 | |
是否支持rtp over rtsp | |
是否支持snmp v30 | |
是否区分回放和下载 | |
是否支持布防优先级 | |
是否支持布防时间段扩展 | |
是否支持多磁盘数(超过33个) | |
是否支持rtsp over http | |
启用红外灯 | |
启用telnet | |
启用ABF | |
启用指示灯 | |
启用自动除雾 | |
启用补光灯 | |
启用除冰功能 | |
可见光机芯电源开关 | |
热成像机芯电源开关 | |
云台电源开关 | |
低功耗策略 | |
IP地址管理 | |
网关 | |
掩码 | |
MAC地址 | |
MTU值 | |
DNS | |
http访问端口 | |
服务端口 | |
启用DHCP | |
设备工作状态 | |
设备本地显示器 | |
启用SNMP | |
snmptrap地址 | |
trap端口 | |
启用NTP | |
NTP服务器 | |
NTP校时时间间隔 | |
NTP端口 |
九、客户收益
通过乐维产品及服务,实现对所有软硬件设备进行监控,综合展现运维管理统计信息和数据,以一个综合展现的平台展现所有关键管理数据,实现用户有效及时得到故障信息,提供快速故障定位,故障分析,容量预测,最终实现运维管理要求。
监控系统给用户的运维带来的价值表现为:
1、减少了繁多的重复工作量,减轻运维人员压力,降低人员投入成本30%;
2、实现容量趋势预测,避免非工作日返回公司对各系统进行扩容的问题,系统宕机风险降低70%;
3、通过界面管理业务系统相关信息,纳管对象一目了然,避免所属业务系统服务器监管遗漏,做到监控全覆盖,故障可定位,处理流程可追溯。