一例华为IPRAN设备时钟失锁的案例分析
新乡网络管理中心 李慧
一、故障现象
9月6日4:09开始,新乡本地网华为IPRAN设备85512-小店 CX600-X3设备瞬报“系统时钟工作模式失锁”、“时钟源状态异常”、“时钟源频偏检测异常”告警。因该设备为汇聚层设备,下挂有大量的接入设备,时钟异常会引起其相关网元的跟踪时钟与全网时钟不一致,严重的会引起业务中断,必须立即处理。
二、故障处理过程
1、检查时钟运行状态
上图为正常情况下的时钟运行状态,时钟跟踪状态为“锁定”,而该设备当时的时钟跟踪状态为“失锁”。
2、检查时钟配置
检查“常规”配置:该设备的时钟运行模式配置的为:“正常模式”,是正常的,如果选择为“自由震荡模式”会产生该告警。
再检查“时钟源”配置:IPRAN环路上的点均配有主、备两路时钟源,主时钟源的“system优先级”为:“1”,备时钟源的“system优先级”为:“2”,这两项不能配置成一样,否则会造成时钟环路。该设备的此项配置是正常的,优先级前也勾选了,同时两个端口的“使能时钟同步”也勾选了,配置上没问题。
正常情况下,时钟源状态主用应该为Normal,备用应该为abnormal,参考时钟源全部为“是”。该设备当时后者是正常的,前者时钟源状态主备用都为abnormal,也就是说时钟源是不可用的。
查询该设备业务单板,无其他告警。因时钟是集成在主控板上的,初步怀疑主用主控板异常。将该网元的4槽位主用主控强制倒换至5槽位备用主控板后,对网元告警进行了同步,告警消失,网元时钟变为“锁定”态,恢复正常。
申请备板后对该设备的4槽位进行了更换,切换至主用主控板,时钟运行状态正常,故障彻底解决。
三、总结
对于时钟的告警,我们要引起足够的重视。虽然当时不会引起业务的中断,但是当网元进入自由震荡的时钟状态以后,会造成业务提取的时钟跟全网时钟不一致,引起业务中断。在平时的维护工作中,养成检查时钟视图的习惯,是否有互跟现象,是否有时钟成环的情况,对于时钟隐患及时处理。