現(xiàn)如今,容錯服務(wù)器對很多用戶來說,早已不再陌生。建立在冗余技術(shù)基礎(chǔ)之上的容錯服務(wù)器,在解決單點故障、縮短故障恢復(fù)時間、降低人為錯誤、減少部件和軟件版本不兼容等方面相對于集群服務(wù)器都顯示出了其強大的優(yōu)勢,并逐漸成為服務(wù)器市場的新亮點。
近年來制造業(yè)、能源、交通、教育等行業(yè)對IA服務(wù)器的需求量迅猛增長,他們不僅期望服務(wù)器能夠提供7X24小時的不間斷連續(xù)運行,同時還希望減少維護工作量,以控制TCO(總擁有成本)等等。從2003年起,以超過20%的市場占有率名列日本服務(wù)器市場第一位的NEC服務(wù)器進入中國市場,使國內(nèi)用戶真正開始接觸到IA架構(gòu)、Windows 2000平臺的容錯服務(wù)器。事實上,容錯技術(shù)從問世到現(xiàn)在,已經(jīng)擁有了20年的歷史。
前世:銅雀深宮鎖二喬?
用“大器晚成”形容容錯技術(shù)20年來不斷完善、發(fā)展的歷史,實不為過。早在20世紀80年代,第一代容錯技術(shù)就開始進入商用領(lǐng)域。美國Stratus(容錯公司)采用了Motorola M68000處理器,在Stratus獨特的硬件級容錯技術(shù)及VOS專有操作系統(tǒng)環(huán)境下,為滿足金融業(yè)、證券業(yè)、電信業(yè),交通業(yè)及博彩業(yè)的需求提供了可靠的保證。Stratus領(lǐng)先的硬件級容錯體系結(jié)構(gòu)確保了99.999%的連續(xù)可用性,在當(dāng)時遙遙領(lǐng)先于其他技術(shù)。但由于此服務(wù)器采用專有處理器與操作系統(tǒng)的封閉式架構(gòu),所以給它的廣泛推廣與大規(guī)模應(yīng)用造成了阻礙,而其相對較高的成本和復(fù)雜的維護工作量也使得其局限于少數(shù)應(yīng)用。
隨著Intel 公司在處理器方面在全球取得巨大的成功,容錯技術(shù)開始考慮在Intel 硬件基礎(chǔ)上實現(xiàn)。1993年,Intel I860處理器在Stratus的硬件級容錯體系結(jié)構(gòu)得到了成功應(yīng)用,標志著容錯技術(shù)向普及邁出歷史性的一步。而對硬件支持上的開放性也大大擴展了容錯服務(wù)器的行業(yè)應(yīng)用。在軟件環(huán)境方面,容錯技術(shù)也取得了巨大的突破,除了美國容錯公司的VOS專有系統(tǒng)之外,它還能夠滿足業(yè)界對開放性要求的Unix操作系統(tǒng)FTX,即AT&T UNIX SVR4,Stratus FTX 結(jié)合開放特性及標準 UNIX 的優(yōu)點,同時擁有多種擴展能力,并提供優(yōu)異的可靠性、可用性和服務(wù)性。 FTX 可以為用戶提供適應(yīng)力強的容錯 UNIX 環(huán)境,讓用戶調(diào)配內(nèi)核配合獨特的需要。然而第二代容錯技術(shù)仍然對硬件與軟件極為苛刻,支持的數(shù)據(jù)庫與應(yīng)用平臺也相對匱乏,因此商業(yè)應(yīng)用領(lǐng)域仍然不是非常廣闊。
1996年,容錯技術(shù)得到HP公司的支持,共同推出Stratus Continuum 系列,將 Stratus容錯結(jié)構(gòu)結(jié)合 HP PA-RISC對稱多處理技術(shù),以強勁的性能贏得了可靠的運營環(huán)境。基于 Hewlett-Packard UNIX 的操作系統(tǒng)是為達到更可靠與更高可用性的業(yè)務(wù)關(guān)鍵應(yīng)用而設(shè)計。 HP-UX提供完全的 ABI 兼容能力,使用戶在該環(huán)境運行各種各樣的商業(yè)應(yīng)用,再加上HP公司在RISC領(lǐng)域的強大技術(shù)與影響力,容錯技術(shù)在關(guān)鍵應(yīng)用領(lǐng)域開拓了更為廣闊的市場,尤其在電信、金融、證券等行業(yè),容錯技術(shù)憑借其Unix環(huán)境下99.9999%的高可用性贏得了廣大客戶的共同認可。
21世紀以來,全球信息技術(shù)革命如火如荼,制造業(yè)、中小企業(yè)、能源、交通等領(lǐng)域?qū)Ψ⻊?wù)器特別是中低端IA服務(wù)器需求激增,而過去僅僅可以應(yīng)用在RISC平臺、HP-UX環(huán)境下的容錯產(chǎn)品面臨著新的挑戰(zhàn)。另一方面,企業(yè)越來越依賴信息系統(tǒng)來完成關(guān)鍵業(yè)務(wù)的應(yīng)用,對服務(wù)器系統(tǒng)的可用性、高安全性提出更高的要求,同時他們不可能配備更多的專業(yè)人員來進行專職維護,這是雙機熱備、集群服務(wù)器難以解決的問題。
今生:奮威殺出新江湖
順應(yīng)IA架構(gòu)市場占有率的激增,以及Windows Server 2000及Linux在服務(wù)器領(lǐng)域的迅猛發(fā)展潮流,NEC 公司通過與美國容錯公司多年合作,于2001年推出了業(yè)界第一臺基于IA架構(gòu)、支持Microsoft Windows Server 2000標準操作系統(tǒng)環(huán)境的容錯服務(wù)器。它代表了 Microsoft Windows 平臺下世界最高水平的系統(tǒng)可用性。 該系列容錯服務(wù)器采用 Intel 處理器及其他標準服務(wù)器部件,讓各行各業(yè)以更為適宜的成本體驗到容錯技術(shù)的優(yōu)勢。由于容錯服務(wù)器的體系結(jié)構(gòu)是屬部件級冗余設(shè)計的體系結(jié)構(gòu),其結(jié)構(gòu)的可靠度指標要比雙機Cluster系統(tǒng)要高得多,以低成本實現(xiàn)了小型機的可靠性。
NEC 公司的Express5800/ft系列在Windows 及Linux平臺上的可靠性達到了99.999%,代表了同等環(huán)境下全球最高的系統(tǒng)可用性。這種實時保護技術(shù)的來源是STRATUS連續(xù)處理技術(shù)(Fundamentals of Continuous Processing Design),它包括步鎖(LOCKSTEP) 技術(shù),安全故障(Failsafe)軟件和激活服務(wù)(ACTIVE SERVICE) 結(jié)構(gòu)三個基礎(chǔ)
連續(xù)處理設(shè)計核心原理的三個基礎(chǔ)技術(shù)
1)LOCKSTEP 技術(shù)
LOCKSTEP技術(shù)使用相同的、冗余的硬件組件在同一時間內(nèi)處理相同的指令。在一個組件失效的同時,另一組件作為一個激活的備用組件繼續(xù)正常的運轉(zhuǎn),并且避免系統(tǒng)的死機。系統(tǒng)也能發(fā)現(xiàn)和糾正短暫的硬件錯誤,如果不檢查,將會導(dǎo)致軟件錯誤。
LOCKSTEP技術(shù)可以保持多個CPU,內(nèi)存精確的同步,在正確的相同時鐘周期內(nèi)執(zhí)行相同的指令。LOCKSTEP處理保證能夠發(fā)現(xiàn)任何的錯誤,即使短暫的錯誤,系統(tǒng)也能夠在不間斷處理和不損失數(shù)據(jù)的情況下恢復(fù)正常運行。
NEC Express5800/ft系列采用了LOCKSTEP硬件設(shè)計,使用兩個CPU-內(nèi)存集合(主板)雙模冗余的(DMR)模式,較過去的容錯技術(shù)有了明顯的改進。在硬件設(shè)計方面不斷增加工業(yè)標準,以標準的模塊組件方式提供了更高的性價比,更大的空間效率,更好的投資保護和更簡單的使用性。
2)安全故障(FAILSAFE)軟件
FAILSAFE 軟件和LOCKSTEP技術(shù)運行一致,防止許多的軟件錯誤和儲運耗損。不同于其他類型的服務(wù)器或群服務(wù)器,NEC Express5800/ft硬件和軟件易發(fā)現(xiàn)和處理更多的錯誤,屏蔽操作系統(tǒng)、中間件和應(yīng)用軟件。容錯技術(shù)的另一優(yōu)勢就在于它可即時保護和維護內(nèi)存數(shù)據(jù)。FAILSAFE軟件在Windows 2000/2003環(huán)境下采用熱插拔、內(nèi)存鏡像、負載均衡、多點終止失效、多通道I/O等方式,大大增強了系統(tǒng)連續(xù)運行的穩(wěn)定性。
FAILSAFE可以管理和診斷特征捕獲,分析和通報服務(wù)器的軟件問題。這允許個人在軟件發(fā)生錯誤之前去糾正錯誤。FAILSAFE 軟件有幾大功能來為Express5800/ft系統(tǒng)WINDOWS環(huán)境中增強可靠性:軟件保護短暫的硬件故障;增強的驅(qū)動程序來預(yù)防軟件失效;軟件問題的捕獲、分析及修正;內(nèi)存數(shù)據(jù)的連續(xù)性維持;豐富的糾錯功能可以解決各種不同的錯誤。顯然,傳統(tǒng)服務(wù)器根本無法避免任何硬件與軟件出現(xiàn)故障,即便是高可用集群系統(tǒng),也只能通過重啟和恢復(fù)機制來使軟件盡快重新啟動并運行,而不具有預(yù)先防止軟件內(nèi)部發(fā)生隱含錯誤的功能。
為了避免物理撞擊等意外故障,安全故障軟件還提供了自動重啟功能,能夠?qū)㈠礄C前CPU與內(nèi)存數(shù)據(jù)即使保存下來,最大限度避免數(shù)據(jù)的意外丟失。
3)激活服務(wù)(ACTIVE SERVICE )
當(dāng)然,假如容錯服務(wù)器的硬件發(fā)生永久性故障,盡管系統(tǒng)能夠正常運行,也必須及時更換硬件才能維持容錯的冗余架構(gòu)。容錯服務(wù)器都配帶了簡易直觀的圖形界面管理監(jiān)測工具,(如NECExpress5800/ft提供了ESMPRO 管理軟件),能夠?qū)Ψ⻊?wù)器中硬件運行及故障狀態(tài)進行適時監(jiān)控。當(dāng)一個錯誤被發(fā)現(xiàn)時,服務(wù)器將正確地隔離環(huán)境,并且自動打開一個命令,讓NEC 技術(shù)支持中心或者網(wǎng)絡(luò)管理員正確地執(zhí)行命令。當(dāng)服務(wù)器某部件如CPU或者內(nèi)存發(fā)生故障時,技術(shù)支持人員可以及時更換配件,同時保證服務(wù)器系統(tǒng)繼續(xù)運行不間斷。
容錯技術(shù)前景無限
容錯技術(shù)的應(yīng)用已經(jīng)開始從過去的銀行業(yè)、證券業(yè)、電信業(yè)等領(lǐng)域進入基礎(chǔ)行業(yè),如制造、能源、物流、交通,以及有著7×24不間斷運營需求的中小商業(yè)團體和政府。NEC為了迎合互聯(lián)網(wǎng)的高速增長,為容錯服務(wù)器引入了最新的Linux版本。眾所周知,Linux這個革命性的開放式平臺,具有穩(wěn)定,安全、可升級、功能強大等特性,為如今的互聯(lián)網(wǎng)商業(yè)邁向成功提供了更多的便捷。
而容錯的未來將會向著更高的可用性、更卓越的可維護性方向發(fā)展,調(diào)查顯示越來越多用戶開始注重TCO(總擁有成本)而不是初期購買價格,而關(guān)鍵業(yè)務(wù)的停頓造成的經(jīng)濟損失更是難以估計。據(jù)Qualix Group統(tǒng)計數(shù)據(jù)表明,1分鐘的宕機停頓就能使運輸業(yè)損失15萬美元,制造業(yè)的損失則會上升到42萬美元之多。因而,更多的企業(yè)決定逐步放棄采用99.9%可用性的雙機熱備以維護復(fù)雜的集群服務(wù)器,將目光瞄向具有容錯技術(shù)的平臺或容錯服務(wù)器平臺。另一方面,NEC 與國內(nèi)最大的IT供應(yīng)鏈管理服務(wù)商神州數(shù)碼聯(lián)合,在一定程度上彌補了容錯服務(wù)器在中國市場與服務(wù)拓展的短板。這將引發(fā)國內(nèi)各領(lǐng)域容錯市場的井噴式發(fā)展,越來越多的企業(yè)可以體驗NEC全球尖端服務(wù)器技術(shù)為用戶提供實時在線交易服務(wù),在下一步電子商務(wù)競爭中獲取更多的競爭優(yōu)勢。

