網絡停頓造成重大損失
分析機構Strategy Group曾于2007年進行了一項關于企業與網絡停頓的研究,在訪問了Ziff Davis Enterprise數據庫內的173位企業主管后,發現其中32%的受訪者表示他們的企業不能接受任何系統停頓;而各受訪者可接受的網絡停頓時間,平均低至每年1.8小時。
事實上,網絡停頓會給企業造成重大的經濟損失,平均每日高達300萬美元,甚至有10%的受訪企業經濟損失更是超過了每日一千萬美元!然而,金錢損失還不算是最大的問題:有69%的受訪者認為最大的問題是影響商譽,47%受訪者更認為,網絡停頓會直接導致企業損失客戶。
想要有效減少網絡停頓,首先要找出網絡停頓的原因。根據業界研究,網絡停頓主要有三大原因:首先是因為系統維護和升級等原因而預先安排的停頓;其次是系統故障;第三就是人為錯誤。
預先安排的停頓
一般來說,預先安排的停頓只占全部網絡停頓的5%至10%,比率不高,而且解決的方法也相對容易和可靠。
目前不少網絡設備供貨商已經在其網絡設備中加入了熱切換(hot-swappable)的功能,這讓管理人員可以不需要停止整個系統就可以進行替換;再配合冗余設計、容錯功能、熱升級(In-service upgrade)軟件模塊升級功能等設計,就可以進一步把排定停頓時間大幅縮減為1%至2%。例如瞻博網絡公司旗下的JUNOS操作系統采用了模塊化結構,更支持各種熱切換技術和錯誤修復配置功能,包括完美路由引擎切換(Graceful Routing Engine Switchover,GRES)、在線軟件升級(ISSU)功能,可以令網絡可用性提升不少。
系統故障
系統故障約占所有系統停頓的 25%,解決方法可分為主動式方案和被動式方案兩種:
主動式方案則著重預防,即是開發人員要遵守更專業而嚴謹的工程規范,在產品正式推出前便做好各項研究、檢查和測試工作,力求減低故障機會。
由于JUNOS為所有平臺提供了定時更新的單一軟件版本,而且推出前需要通過長時間的回歸測試(Regression Test),確保原有的功能仍然正常運作,以及之前已改善的問題沒有再次出現。另一方面,每一個版本均可配合所有硬件平臺和功能,以避免不必要的軟件更新,或者不同平臺/功能會增加軟件更新版本,從而讓客戶不需要因為不斷升級而浪費評估和測試時間。預防勝于治療,一開始便解決問題,總勝于不斷修補。
被動式方案是在出現故障后的補救方式,包括迅速搶修服務、推出軟件和硬件的除錯更新版本等。它的缺點是會因此產生許多不同版本,令用戶產生混亂,以及令不同設備之間出現兼容問題。
在這種方案中,客戶如果希望更新整個網絡,首先要細心閱讀說明文件,確保網絡內所有硬件平臺和功能套裝均備有修正版本。而事實上,客戶可能要等待一年甚至更長時間,廠商才能完成全部的程序編寫、測試和推出程序 ,為所有不同版本平臺和功能套裝進行更新。
人為錯誤
約50%至80%的網絡停頓都是由人為錯誤造成的,其中的黑點就是系統配置:網絡設備日益復雜,運作環環相扣,細小的配置差錯很快便會引起連鎖反應,乃至變成嚴重問題。
員工培訓、增加監察人手等措施固然能夠有助于減少人為錯誤,但我們還需要系統的配合。瞻博網絡公司花了不少功夫來研究和開發相應的技術,為JUNOS操作系統加入了多種獨特功能,尤其針對系統配置這個人為錯誤的黑點。例如JUNOScript Automation功能會先行核對配置指令的語法及檢查指令會否引發系統沖突,并且與工程人員預先設定的程序代碼儲存庫(script library)內的程序代碼進行對照;另一方面,系統在更改配置前也會先備份舊的系統配置,若更新配置后出現問題,系統會自動回復至之前所備份的舊配置。
業界顧問機構Lake Partner Strategy Consultants的研究顯示,企業為監察網絡狀況和設備參數,平均花費系統管理時間的20%,而追蹤和修正網絡錯誤的時間,平均占核心路由運作的21%。而在采用JUNOS網絡設備后,上述工作所花的時間分別減少了25%和54%,表現非常令人滿意。
網絡停頓是企業營運的大敵,減少停頓無論對減少損失、提升營運效率、改善業務表現和商譽,都大有裨益。
(新聞稿 2008-03-11)