新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述
升級(jí)#478網(wǎng)元OSN3500設(shè)備,該網(wǎng)元為環(huán)網(wǎng)上站點(diǎn),速率為10G(2塊SSN1SL64),為支持N3EGS4單板,版本由5.21.17.12升級(jí)至5.21.17.31,主控板為N1GSCC,采用TOOLKIT模擬包加載方式進(jìn)行,在激活最后一塊單板SSN1SL64后,網(wǎng)元脫管,業(yè)務(wù)無影響。
告警信息
#478網(wǎng)元兩端站點(diǎn)及業(yè)務(wù)對(duì)端站點(diǎn)均無異常告警。
處理過程
通過分析結(jié)果進(jìn)行處理:
1、通過:cm-get-chanerror:bid;查詢對(duì)接兩側(cè)網(wǎng)元光板DCC字節(jié)收發(fā)情況,所有參數(shù)均無變化,通過cm-get-chaninfo:bid查詢,僅有發(fā)送,而無接收字節(jié),暫時(shí)排除ECC誤碼問題;
2、由于網(wǎng)元已經(jīng)脫管,因此只能到現(xiàn)場(chǎng)進(jìn)行查詢,通過命令行能夠正常登錄網(wǎng)元,對(duì)主控進(jìn)行主備倒換測(cè)試,故障仍舊;
3、查詢ECC相關(guān)信息,設(shè)置均正常,通過
:cm-get-chanmode;
CHAN-ALLOMODE
CHAN-MODE
2
:cm-get-chanallocinfo;
CHAN-ALLOC-INFO
CHAN-MODE CHAN-WIDTH CHAN-NUM
1 3 40
2 3 10
2 9 10
3 3 22
3 9 6
得知(以前結(jié)果也可以在T2000網(wǎng)管上查詢):設(shè)備當(dāng)前DCC工作模式為2,3字節(jié)模式,支持10路ECC;由于5.0平臺(tái)設(shè)備ECC端口分配非固定,單板硬復(fù)位后,ECC資源釋放,由于設(shè)備上有多光口單板SLT1(當(dāng)前版本支持8路ECC),釋放后的資源被分配給了SLT1單板,于是將兩塊SLT1板拔出去,通過立即恢復(fù)正常;
3、通過T2000V2R7C03網(wǎng)管上載該網(wǎng)元數(shù)據(jù),直觀地對(duì)網(wǎng)元進(jìn)行難操作,將SLT1板插回,正常開工后,將兩塊SL64單板ECC禁止后再打開,網(wǎng)元又無法與其它網(wǎng)元進(jìn)行通信了,逐一關(guān)閉SLT1板各端口ECC,當(dāng)剩下9個(gè)端口未關(guān)閉時(shí),通信恢復(fù)正常了,但僅有8-SL64收發(fā)正常,再關(guān)閉一個(gè)SLT1端口ECC,11-SL64板收發(fā)也正常了,證明了前面數(shù)據(jù)采集分析結(jié)果,其實(shí)在激活11-SL64時(shí),問題已經(jīng)開始發(fā)生,11-SL64板激活后,ECC資源已經(jīng)重新分配給了SLT1板,走至8-SL64激活后,問題發(fā)生了。
根因
分析整改升級(jí)過程:
1、升級(jí)前檢查,網(wǎng)元無異常告警,ECC通信正常,可達(dá)網(wǎng)元數(shù)量為94個(gè);
2、開始軟件加載;
3、激活單板軟件,順序是:備用主控-->主用主控-->備用UXCSB-->主用UXCSB-->11-SL64
-->1~4 SSN2PQ1-->8-SL64,設(shè)備中兩塊SLT1板已經(jīng)配套5.21.17.31,因此TOOLKIT未對(duì)該類單板進(jìn)行加載;
4、激活過程超過30分鐘,在激活8-SL64時(shí),網(wǎng)元脫管;
分析可能原因:
1、激活過程應(yīng)該沒有問題,即使在激活8-SL64單板前,復(fù)位了所以PQ1板,與脫管應(yīng)該是沒有關(guān)系的;
2、初步懷疑主用主控板DCC處理問題,但在脫管前主控復(fù)位運(yùn)行已經(jīng)超過至少30分鐘,突然出再問題可能性不大,如果是硬件故障,至少可以切換到備用主控,備用主控同時(shí)故障機(jī)率更小;
3、對(duì)于出現(xiàn)ECC誤碼可能性相對(duì)比較大,
4、由于設(shè)備中安裝有兩塊SLT1多光口板,對(duì)于ECC資源需求較多,會(huì)不會(huì)有ECC資源不足的情況呢
建議與總結(jié)
1、這個(gè)案例看上去比較簡單,但有時(shí)候也是容易犯的錯(cuò)誤,該問題的發(fā)生僅僅緣于對(duì)ECC資源分配不夠重視,以為升級(jí)前設(shè)備運(yùn)行正常,業(yè)務(wù)正常就可以開始升級(jí)了,案例中正好是SLT1板不用升級(jí),更不需要硬復(fù)位,而僅僅需要復(fù)位的光板為SL64,正好暴露出這個(gè)問題,如果SLT1需要升級(jí),硬復(fù)位,安裝我們平時(shí)升級(jí)的習(xí)慣,一般是先激活高速率的線路板,后低速率,也許還沒有發(fā)現(xiàn)和關(guān)注ECC資源分配問題;
2、目前我們的NG-SDH設(shè)備默認(rèn)采用ECC通信,因此了ECC資源建議大家平時(shí)開局維護(hù)時(shí)多關(guān)注,象SLT1這樣基本上不會(huì)參與組網(wǎng)的單板,開局?jǐn)U容時(shí),就把它的ECC資源禁止;
3、在進(jìn)行升級(jí)任務(wù)時(shí),建議多采集相關(guān)的數(shù)據(jù),如:ECC通信是否正常,單板主備狀態(tài)是否正常,是否有屏蔽什么異常告警之類的數(shù)據(jù),這樣才能夠做到升級(jí)基本萬無一失,也為自己節(jié)省了時(shí)間,本案例中去站點(diǎn)現(xiàn)場(chǎng)來回路程花費(fèi)了10個(gè)小時(shí),而處理好問題僅用了不到10分鐘。