网络管理告警系统
网络管理—警告系统的设计网络管理—警告系统的设计 1 1 设计目标设计目标 1. 数据采集:通过采集计算网络中的配置信息,告警信息,性能信息,反馈给告警中心。 2. 数据分析:分析告警信息(原始告警信息,性能数据,配置信息) ,推理处理并存储记录告警,且实现 告警的可确认消除(自动回复/手动恢复) 。 3. 数据应用:实时监控重要的告警信息,解决并消除告警信息。根据告警信息记录生成报表统计,向上层 提供决策的数据依据。 2 2 概要设计概要设计 系统分三层 : 数据的采集数据处理数据应用 数据采集:从系统的网元上采集数据包括:性能数据信息,网元告警信息,拓扑结构的配置信息,向数据处理层 的制定临时数据库中传送。 数据处理:从指定的数据库中获得原始数据信息,判断处理。根据估值(及性能阀值)判断生成警告信息,存储 分析并上报告警信息。实现告警的匹配确认清除,重复告警的归并处理。 数据应用:及时监控重要的告警信息,并处理此告警,反馈告警的确认信息。根据不同的用户需求展现告警统计 信息报表,为决策提供数据支持。 3 3 数据采集层数据采集层 3.13.1 内容内容 3.1.13.1.1 配置数据采集的内容配置数据采集的内容 及获得该网络中的网元设备,基本信息,与实体形成对应的映射。用于网络的拓扑信息管理。 网管系统管理采集以下配置数据: 3.1.23.1.2 告警数据采集的内容告警数据采集的内容 告警源告警源 需要采集的告警报告分为: 网元告警 路由器: 交换机: 配线板: 服务器:cpu , 内存,硬盘,电源,风扇(散热) ,网卡,光驱,端口,运行的软件服务 1. 环境告警:暂保留。 2. 通信连接告警(拓扑管理) :当某一网元设备持续一定时间不响应网管系统时,网管系统应能自动生成 该网元设备的通信连接警。 3. 性能告警:当性能指标超出预先设定的范围时,系统触发的告警称为性能告警。 4. 设备告警: 来自设备红端的告警信息。 原始告警数据内容原始告警数据内容 原始告警数据是从告警源采集到的未经任何处理的原始告警信息, 格式和内容与网元类型相关, 原始告警信 息将在告警管理应用层进行处理,采集层采集到的告警原始数据至少应包括以下内容: 中文名称 告警的序列号 网元的识别名 告警发生时间 告警清除时间 告警原始类型 告警原始级别 活动状态 告警标题 告警内容 名称 Alarm_id Dn Occur_tim e Clear_time org_type org_severit y activestatus Title alarm_text 说明 告警的序列号 网元的识别名 告警发生时间 告警清除时间 告警类型 告警级别 活动状态 告警标题 告警内容 类型 字符串 字符串 时间 时间 字符串 字符串 整数 字符串 字符串 3.1.33.1.3 性能数据采集的内容性能数据采集的内容 针对不同的网元,采集其对应的性能信息。格式和内容与网元的类型相关。 在采用阀值过滤器,判断产生原始的警告信息。 3.23.2 方式方式 采集方式分两种: 1.直连网元及直接连接到网元设备,进行数据采集。 (使用于小的系统) 2.系统采集及上一级的网管通过下一级的网管来获取数据。 (使用于多个小系统集成的大型系统) 3.33.3 要求要求 配置、性能、告警原始数据至少要保留一周以上。对配置数据、告警数据和性能数据采集的要求不尽相同, 下面分别进行说明。 3.3.13.3.1 配置数据采集的要求配置数据采集的要求 为了在用户层展现的网络结构与实际的网络结果相对应, 需要周期性的检测当前网络的连接情况, 设备的运 行情况等实时信息: 在系统相对稳定的情况下,网管系统能够按照用户预定的时间表定时的、周期性地自动采集配置数据, 时间表中的采集开始时间和采集周期可由用户设置; 如果由于网络或者其他原因, 网管系统没有正确采集到网元的配置数据, 网管系统能够让用户在必要时 手工启动配置数据采集程序进行重采或补采,并可按网元组、地区进行分别采集刷新配置数据; 网管系统以报告等方式方便地检查每个网元的配置数据采集情况,即该网元的配置数据的更新情况。 3.3.23.3.2 告警数据采集的要求告警数据采集的要求 实时地采集所有网元 (NE) 生成的各种设备故障告警报告、 网络事件报告以及与网络、 业务相关的故障报警 报告。为保证数据采集的完整性,告警数据采集层必须提供手工采集手段,并应具备以下主要功能: 能够自动采集告警数据,采集时间和采集周期可设置; 能够实时接收由厂家 OMC 或网元设备实时上报的告警信息; 需要时能够即时手工启动告警数据采集程序,保证数据采集的完整性; 可根据需要,按告警网元、告警级别、告警类别等条目或按一定地区进行设置,实现过滤采集。 3.3.33.3.3 性能数据采集的要求性能数据采集的要求 性能数据采集应具有以下四个主要功能: 能够周期性地 24 小时自动采集性能数据,采集周期和采集时间可选择,最小的数据采集时间周期为15 分钟,采集的时间粒度可以基于网元或地区进行选择; 能够即时手工启动性能数据采集程序 (分地区、分时段); 当报表数据不全时,能够提供简单的手段确认所采集的网元数据的齐全; 采集和补采的数据能够自动入库。 4 4 数据处理层数据处理层 原始数据通过数据采集层进入系统后, 数据处理层对这些原始数据进行归纳整理,实现数据结构规范化,为 数据应用层实现具体功能提供支持,便于系统的二次开发和新的应用功能的提供 。处理层数据至少需要保存 6 个月。 以下从配置、告警和性能三方面对数据处理层进行说明。 4.14.1 配置数据处理层配置数据处理层 本节从信息归一化、配置数据的存储、刷新和备份等四方面进行说明。 4.1.14.1.1 配置信息归一化配置信息归一化 配置数据采集到网管系统之后, 必须进行归一化、数据结构规范化,使数据应用层的相关应用能够方便地使 用这些数据。 配置信息按照交换机,路由器,服务器,等六个方面进行归一化,具体内容参见附录。 4.1.24.1.2 配置数据的存储配置数据的存储 网管系统应能够将不同种配置数据转换成以上描述的归一化标准数据格式并存储到数据库中, 为性能、 告警 等应用提供数据支持,为二次开发或其他的后处理提供标准的存储接口。 4.1.34.1.3 配置数据的刷新配置数据的刷新 网管系统发现新的配置数据采集结果与网管数据库中的配置数据不同时, 如网元的增加、删除、网元属性改 变(何种属性) ,需要用户确认,并生成变更记录,作为采集日志的一部分,供用户后期查询,同时更新网络拓 扑图等相关的上层应用程序的配置数据,使上层应用能够呈现网络的最新配置信息。 4.1.44.1.4 配置数据的备份配置数据的备份 网管应提供对配置数据的快照功能 (即备份功能),用户通过此功能可将当前网络的配置信息存储下来,供 其他应用所调用。快照可以由网管系统按照时间表的设置自动进行或由用户手动启动。 快照后的配置信息可用于: 网络配置信息的历史对比 配合性能,告警数据做网络多维分析 4.24.2 告警数据处理层告警数据处理层 以下对告警数据的处理进行说明。4.2.1 告