新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述
線網(wǎng)一臺OSN3500設(shè)備(版本18.50,非網(wǎng)關(guān)網(wǎng)元),之前主主控有主控重復(fù)復(fù)位故障。為將故障排除,需將主備兩塊主控(都是SSN1GSCC01,在本例中編號:主主控A、備主控B)都拔下來,插入新主控(SSN1GSCC01,編號C),版本匹配并下載數(shù)據(jù)后,原有故障消除。
但將原17槽備用主控(B)插回后,單板不能識別,現(xiàn)象為:17槽備主控(B)STAT燈紅,網(wǎng)元沒有異常告警,網(wǎng)元不能識別物理板,當(dāng)時懷疑原主備主控都故障,就將兩個主控(A、B)都返回維修。等備用主控備件到達后(SSN1GSCC02,版本已提前降級到18.50,編號D),插入17槽,發(fā)現(xiàn)故障現(xiàn)象沒有變化。
用:cfg-get-phybd查詢物理單板,返回:
BID BOARD-TYPE
…… ……
16 BPA
18 gscc
…… ……
網(wǎng)元不能識別17槽位的備用主控(D)。
用:cfg-set-oamport:COM,open;打開COM口后,ping網(wǎng)元單板,17槽不通,其他槽位通。
用:cfg-add-board:17,gscc手動添加GSCC邏輯單板并驗證:cfg-verify,17槽上報COMMUN_FAIL,參數(shù):0x01 0x00 0x03 0xff 0xff
告警信息
STAT燈紅
COMMUN_FAIL
處理過程
1、將所帶去的N1GSCC02(D)插入17槽,故障依舊。
2、更換AUX板,故障依舊,排除AUX故障原因。(后來查詢資料證明,該故障與AUX無關(guān))
3、將帶去的SL4A線路板插入17槽,網(wǎng)元能正常識別,且添加邏輯單板后,能正常上線。說明17槽備板至少部分工作正常(三根狀態(tài)線和部分?jǐn)?shù)據(jù)線)。
4、將17槽備主控(D)跳線成BIOS態(tài)(N1GSCC02跳線方法為取下J12、J13跳線,插入J9、J10),插入17槽。能ping通,且能用FTP登陸上。登陸后,刪除OSF1、OSF2目錄下的PREVPDT文件,硬復(fù)位單板后,單板自動執(zhí)行清庫操作。清庫完畢后,撥回正常態(tài),單板依然起不來。17槽GSCC02(D)重新?lián)芑谺IOS態(tài),采集單板數(shù)據(jù),交給研發(fā)分析。
5、研發(fā)分析后,認(rèn)為主主控和背板的嫌疑比較大。帶上另外一個新的N1GSCC02(E),再次去現(xiàn)場定位故障(此時有2塊N1GSCC02):
5.1、新GSCC02插入17槽(E),起不來。啟動過程中用CoolTest工具查詢寄存器
dwReadHardwareStatus(11)
返回值為:
Value = 0 = 0x1
說明主備主控間網(wǎng)口狀態(tài)異常,排除第一塊GSCC02(D)硬件故障問題。
5.2、取下兩塊GSCC(C、E),將GSCC02(D,18.50版本的)插入18槽,正常啟動,下載網(wǎng)元數(shù)據(jù)成功。
5.3、將原18槽GSCC01(C)插入17槽,起不來。報17槽COMMUN_FAIL。
5.4、將17槽GSCC01(C)取出,插入新的GSCC02單板(E),單板上線,網(wǎng)元能識別GSCC。確定是原GSCC01主控板(C)故障。(C主控10M以太網(wǎng)通信模塊故障,導(dǎo)致C當(dāng)主主控時,不能與備主控建立通信,備主控不能上線。C當(dāng)備主控時,也不能與主主控通信。更換新主控E后,問題就解決。)
5.5、將版本統(tǒng)一到18.50后,查詢:
:hbu-get-backup-info
返回:
Backup-Info : 0x00000003
同步成功。
:hsc-get-work;
返回:
Work-Status : 18 Good 17 Good
主備狀態(tài)正常。
5.6、手動下發(fā)主備倒換命令,主備成功倒換。故障排除。
根因
OSN7500/OSN3500/OSN2500/OSN1500板間通訊有二種方式
1)單板間2路HDLC通道,遵從HDLC協(xié)議,接口電氣規(guī)范為RS485。
2)1路LAN SWITCH通道。
圖1. OSN 3500主控板通信實現(xiàn)原理
LAN SWITCH通道傳遞的是主機和單板之間的正常配置信息和單板向主機上報的告警、性能,相當(dāng)于老產(chǎn)品中的郵箱。其中主備主控間備份數(shù)據(jù)用的是10M速率,其他以太網(wǎng)速率都是100M。
485通道主要實現(xiàn)與復(fù)用段、SNCP、TPS相關(guān)的功能,速率為4Mbits/s。
A通道:用于復(fù)用段保護相關(guān)的SD、SF事件、K字節(jié)、倒換頁面的傳遞。
B通道:用于SNCP、TPS倒換、S1字節(jié)相關(guān)信息的傳遞,另外在線路板檢測到交叉板送過來的總線信號有問題時線路板會通過B通道傳遞交叉倒換信息,促使交叉板發(fā)生一次倒換。
根據(jù)告警信息,COMMUN_FAIL 第三個參數(shù)為0x03。指的是17號板以太網(wǎng)的通訊失敗告警。即para3為3時表示以太網(wǎng)的通訊失敗告警。
由此分析,故障原因可能如下:
1、新帶來的備主控故障。
2、原故障換上去的主主控故障。
3、AUX故障。
4、背板故障。
建議與總結(jié)
1、主控板與系統(tǒng)其它的單板主要是通過以太網(wǎng)進行通信,各單板和兩塊主控板的板間通信以太網(wǎng)都與AUX板相連,所以從物理上主備主控板同時都可以與其它各單板通信。
但為了保持主備主控板的數(shù)據(jù)一致,備用主控板的板間通信沒有使用,它與線路板的數(shù)據(jù)完全來源于主用主控板(通過下面提到的10M以太網(wǎng)通信)。對于板間通信的網(wǎng)口,兩塊主控板的MAC地址不同,IP地址不同,以O(shè)SN3500為例:18板位的IP為:192.168.0.18;17板位的IP地址為:192.168.0.17。這個網(wǎng)口的默認(rèn)網(wǎng)段為:192.168.0.XXX,子網(wǎng)掩碼為:255.255.255.0。
網(wǎng)管接口也是如此,不同的是備用主控板的網(wǎng)管以太網(wǎng)口完全是關(guān)閉的,只有在成為主板后才打開,保證同時只有一個主控板與網(wǎng)管相連。對于網(wǎng)管通信的網(wǎng)口,兩塊主控板的MAC地址相同,IP地址相同。這個網(wǎng)口的默認(rèn)網(wǎng)段為:129.9.XXX.XXX。
主備主控板間還有一個10M的以太網(wǎng)進行主備通信,備板的數(shù)據(jù)基本上都是通過這個網(wǎng)口從主板獲得的。這個網(wǎng)口的默認(rèn)網(wǎng)段為:10.108.7.XXX。XXX與板位號一致。
2、COMMUN_FAIL告警與AUX板的關(guān)系:
COMMUN_FAIL告警參數(shù)3的意義:0x01表示RS485通道1。0x02表示RS485通道2。0x03表示板間以太網(wǎng)通信。
如果COMMUN_FAIL告警發(fā)生在主控板上,則告警與AUX沒有關(guān)系;
如果COMMUN_FAIL告警發(fā)生在其他單板上,且參數(shù)3為0x03,則告警有可能與AUX有關(guān)系。
3、主控板三根狀態(tài)線:
NG-SDH三根狀態(tài)線
在位狀態(tài)信號線:互送板在位狀態(tài),板在位或者不在位,這個狀態(tài)是邏輯運行的結(jié)果,可讀不可寫;
工作狀態(tài)信號線:互送板工作狀態(tài),板工作狀態(tài)為好或者壞,這個狀態(tài)是由硬件和軟件共同決定;
主備狀態(tài)信號線:互送板主備狀態(tài),是主板還是備板,這個狀態(tài)是邏輯運行的結(jié)果,可讀不可寫。
本案例中,由于17槽位插SL4A單板,能正常識別并開工,所以狀態(tài)線沒有問題。
4、不能完全相信維護備件,備件也有可能是壞的,處理故障時要大膽懷疑。
總結(jié):
該故障原因其實很簡單,但重點在分析和定位的過程。原理清楚,材料、資源準(zhǔn)備充分,才能快速定位故障。另外,不能盲目相信備件就是完好的,該懷疑時就要懷疑。