热门搜索 Zabbix技术资料 Zabbix常见问、答讨论 成功案例 Zabbix交流区 Prometheus交流区

案例解读 | 某大型证券企业智能运维平台建设实践

PART 01 项目背景
01客户简介

本案例客户是华东地区一家大型综合性证券公司。

02痛点分析

随着数字化转型战略的深入推进,客户的IT基础设施规模快速扩张,应用系统复杂度显著提升。同时,在国家信创战略的推动下,其面临数字化转型与信创改造的双重挑战,在运维层面具体如下:

(一)监控与告警能力不足

  • 关键设备监控缺失:作为网络核心的思科N系列设备,其风扇、电源、温度等硬件状态缺乏实时监控手段。一旦出现硬件异常,运维人员难以及时察觉,存在设备宕机风险,可能影响核心业务连续性。

(二)报表与可视化能力薄弱

  • 链路数据获取困难:管理层需定期掌握网络链路运行状况,但缺乏自动化统计与分析工具,运维人员需手动采集、整理数据,耗时耗力且准确性难以保障,无法有效支撑网络优化与管理决策。
  • 运维数据分散:原有监控平台的专线数据缺乏统一的整合与展示方式,运维人员难以全面、直观地掌握 IT 基础架构运行情况,不利于快速发现问题和进行运维决策。

(三)配置管理机制不健全

  • 配置备份缺乏监控与提醒:设备配置备份过程无有效监控机制,当备份失败或出现配置差异时,运维人员无法及时获知,存在配置丢失或安全漏洞风险,难以保障网络配置的一致性与安全性。

(四)网络自动化运维水平低

  • 人工巡检效率低、易出错:传统的人工定时巡检方式,需要运维人员手动登录设备查看日志和运行状态,不仅效率低下,而且容易出现疏漏,无法全面准确地发现网络设备存在的问题,难以满足企业对网络运维的精细化要求。
  • 批量作业执行困难:随着企业网络设备数量不断增加,批量配置和管理任务日益繁重。现有的运维方式缺乏自动化批量作业功能,运维人员需要逐台设备进行操作,耗时久、效率低,且容易出现操作失误,无法满足大规模网络设备的运维需求。

PART 02 乐维方案

结合客户实际情况,乐维通过两阶段实施对客户的运维体系进行改造,替代某国际S厂商网管产品,提升运维智能化水平:

  • 一期工程完成信创网管系统替换,采用乐维信创网管产品;
  • 二期工程基于一期建设成果,针对实际运维场景进行深度优化,全面提升运维效率和使用体验。

01网管通用功能深化实施

  • 链路报表:在深入了解客户对链路数据的需求的基础上,基于网络监控数据,运用数据分析工具和报表开发技术,设计并开发出符合企业要求的月度汇报报表,涵盖链路流量、带宽利用率、故障次数等关键指标。
  • 监控脚本开发:组织技术人员对思科 N 系列设备的接口和协议进行深入研究,开发出针对性的监控脚本。该脚本能够实时采集设备风扇转速、电源状态、温度等信息,一旦检测到异常数据,立即通过邮件、短信等方式发出告警通知。 
  • 配置备份提醒:在配置备份系统中增加差异检测和失败告警模块。当配置备份过程中出现失败情况或检测到配置差异时,系统自动触发通知机制,向指定的运维人员发送提醒信息,同时记录相关日志以便后续排查。

可视化大屏:搭建统一的专线数据整合平台,大屏展示专线状态、告警状态、性能统计TOP10,大屏以中国地图为背景展示了省到省的专线状态和上海市各个管理区专线状态等。

网络自动化功能扩展实施

  • 自动巡检:通过自动巡检脚本,自动登录网络设备,提取近 3 个月的日志数据结合预设的规则和算法对日志进行分析和处理,生成详细的巡检报告,包括设备运行状态、潜在风险、异常事件等内容。 

自动作业:构建自动化作业平台,提供友好的操作界面和丰富的作业模板。运维人员可以通过平台自定义编写作业脚本,设置作业执行时间和目标设备,实现批量作业的定时下发和执行。同时,平台对作业执行过程进行实时监控和记录,确保作业执行的准确性和可靠性。

PART 03 项目成果
01监控适配模板

项目方案完善了思科 N 系列设备监控模板,扩展了监控粒度与深度,使得风扇转速、电源状态、温度等设备硬件状态能够得到实时监测,告警及时性显著提高,异常事件的发现和处理时间大幅缩短,有效降低了网络故障发生的概率。02配置备份提醒

配置备份提醒功能的实现,让运维人员能够及时得知配置异常情况。自功能上线以来,可自动提醒用户配置备份失败和配置差异事件,运维人员均在第一时间进行处理,保障了配置备份的正常执行,提高了网络设备配置的安全性和稳定性。03大屏可视化

运维可视化大屏为企业提供了直观展示 IT 基础架构运行情况的窗口。通过大屏,管理人员可以实时了解网络整体运行状态、关键性能指标和告警信息,便于快速做出决策。同时,大屏也成为展示运维成效的重要工具,提升了运维团队的工作价值和影响力。

04自动巡检功能与自动作业功能效益

自动巡检功能替代了传统的人工定时巡检,巡检效率至少提高了300%,准确性也得到了极大提升。通过自动作业功能,运维人员能够快速批量执行脚本,原本需要数小时甚至数天才能完成的批量作业,现在只需半小时到一小时即可完成,大大提高了运维效率,降低了运维成本。

PART 04 客户收益

本方案深入剖析了客户在基础信息管理维护方面的痛点,通过详细的设计与规划,建立起一套性能优越、功能强大,监控覆盖范围广且灵活的运维监控管理体系,客户的网络运维效率、可靠性和可视化水平得到了显著提升,实现了预期的收益目标:

  • 全面监控保障业务稳定:实现了信息化基础设施更深入的监控颗粒度,资源状态全感知,成为客户业务稳定运行的强有力支撑。
  • 智能巡检提升运维效率:摒弃以往 “逐台登录再操作” 的工作模式,自动定时巡检,自动输出报告,巡检效率至少提高了300%。
  • 降低成本增强系统稳定性:有效降低了运维人员的工作复杂度,缩减了信息系统的日常维护成本,极大保障了业务系统的稳定性。

乐维社区已开发乐维监控免费版乐维MCM(监控+CMDB)免费版,欢迎下载使用!

The prev:

Related recommendations

Expand more!