新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問題描述
一個OptiX OSN3500設(shè)備升級后,兩個線路板SLD64狀態(tài)異常,約XXX個無線GSM站點業(yè)務(wù)中斷,影響約X用戶。問題出現(xiàn)后嘗試使用升級前備份的網(wǎng)元數(shù)據(jù)庫恢復,但是恢復失敗,業(yè)務(wù)中斷。
處理過程
1、升級后發(fā)現(xiàn)slot8和slot11的SLD64單板離線,相關(guān)業(yè)務(wù)中斷;
2、客戶維護人員發(fā)現(xiàn)slot8和slot11的N4SLD64物理單板從升級之前的N1SLD64邏輯板變成了N2SL64邏輯板,修改邏輯單板從N2SL64到N1SLD64;
3、修改邏輯板類型后,單板上線但是業(yè)務(wù)不恢復;
4、問題知會到本地中方,以及TAC,華為中方開始介入處理;
5、經(jīng)過和機關(guān)GTAC溝通,決定執(zhí)行回滾;
6、移走升級完的兩個R10版本GSCC,插入R8版本的GSCC,開始使用升級之前備份的數(shù)據(jù)庫恢復;
7、恢復超時,恢復失敗,業(yè)務(wù)仍然中斷(DC密碼錯誤,導致超時);
8、放棄從數(shù)據(jù)庫恢復,GTAC根據(jù)升級前備份的數(shù)據(jù)庫制作交叉配置腳本,本地命令行下發(fā);
9、下發(fā)成功,但是業(yè)務(wù)仍然全部中斷,發(fā)現(xiàn)升級之前備份的數(shù)據(jù)庫有問題,無法使用;
10、開始尋找最近備份的有效數(shù)據(jù),使用11月份巡檢收集到的業(yè)務(wù)配置,制作交叉配置腳本;
11、執(zhí)行腳本,業(yè)務(wù)恢復。
根因
主控單板GSCC內(nèi)部DRDB和FDB之間的同步開關(guān)被異常關(guān)閉,導致FDB中存的數(shù)據(jù)是歷史配置的,和當前運行的業(yè)務(wù)不符。由此導致兩個問題:
1、升級之后主控復位,復位之后主控重新下發(fā)數(shù)據(jù),下發(fā)的是FDB中的舊數(shù)據(jù),和當前邏輯板位配置以及業(yè)務(wù)配置都是不符的,因此升級上報成功但是業(yè)務(wù)中斷;
2、網(wǎng)元數(shù)據(jù)備份的時候是從FDB備份的,因此升級前使用DC備份的數(shù)據(jù)也是有問題的,無法基于這個數(shù)據(jù)庫進行恢復,導致回滾失敗,造成業(yè)務(wù)中斷。
數(shù)據(jù)庫備份功能默認enable,故障網(wǎng)元之前巡檢發(fā)現(xiàn)該網(wǎng)元是disable,未修復。
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:50+06:00]>
:dbms-get-autobackup
DBMS-AUTO-BACKUP : disable
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:52+06:00]>
:dbms-get-cyclebackup
CYCLE-BACKUP-SWITCH : disable
#9-48:szhw [48-***_OSN-4 ][][2014-12-12 14:31:53+06:00]>
:mml-get-evtflag
CMD EVT FLAG: disable
解決方案
找到升級之前最近的有效的網(wǎng)元數(shù)據(jù)庫備份文件,或者升級前的網(wǎng)管備份腳本,據(jù)此制作業(yè)務(wù)恢復腳本,重新刪除和配置全網(wǎng)交叉。
建議與總結(jié)
1、定時巡檢,對于巡檢中發(fā)現(xiàn)的異常及時跟蹤解決,即使客戶不主動要求解決,也要主動推動解決;
2、升級動作嚴格參考升級指導書,尤其是對于不理解的步驟,也要嚴格執(zhí)行,因為很可能就是對某個潛在隱患的關(guān)鍵過濾措施;
3、加強對產(chǎn)品知識的理解,分清楚網(wǎng)元數(shù)據(jù)備份(從FDB備份)、網(wǎng)管數(shù)據(jù)上載(從DRDB上載)、網(wǎng)管腳本備份(DRDB動態(tài)有效數(shù)據(jù))、網(wǎng)管上同步入口(備份網(wǎng)元數(shù)據(jù)到SCC)這幾個概念的含義,故障時及時找到有效數(shù)據(jù)。
4、升級嚴格遵守流程做各種備份,以備萬一之需。