山西通信集中計費容災系統(tǒng)建設
侯存恩 2004/05/14
隨著計算機網(wǎng)絡技術(shù)的日新月異以及計算機系統(tǒng)處理能力的飛速提高,網(wǎng)絡帶寬和系統(tǒng)處理能力已經(jīng)不再成為制約企業(yè)IT化集中建設的因素。同時,隨著企業(yè)信息化數(shù)據(jù)共享的需求日益迫切,全面解決企業(yè)中廣泛存在的"信息孤島"問題,建設集中的計算機業(yè)務系統(tǒng)的需求也日益迫切,集中化已經(jīng)成為當今系統(tǒng)建設的一個潮流。
針對電信企業(yè),建設全省集中的計費帳務系統(tǒng)已成為大勢所趨。在當今電信運營企業(yè)以客戶服務為中心、以靈活方便的用戶服務政策為經(jīng)營發(fā)展重點的形勢下,計費帳務系統(tǒng)集中化建設為之提供了堅強的后臺支撐保障。集中化的企業(yè)計費數(shù)據(jù)一方面為客戶提供了綜合的、全省性的、全業(yè)務的資費政策,另一方面也為企業(yè)自身提供了寶貴的數(shù)據(jù)資源,為數(shù)據(jù)挖掘和經(jīng)營分析提供了技術(shù)保障,為企業(yè)全面提高經(jīng)營管理水平,更好地服務電信客戶起到了舉足輕重的作用。
正是因為建設集中的計費系統(tǒng)才帶來了容災系統(tǒng)建設的問題,隨著企業(yè)系統(tǒng)集中化的建設,企業(yè)對系統(tǒng)依賴程度也大幅度提高,對系統(tǒng)可用度要求日益苛刻,針對集中系統(tǒng)建設應用級容災系統(tǒng)已經(jīng)成為建設集中系統(tǒng)中的一項不可缺少的內(nèi)容。建設應用級容災系統(tǒng)的思想也是近幾年發(fā)展起來的,以往并沒有太多的 經(jīng)驗可以借鑒,山西通信在2001年開始建設全省集中的計費帳務系統(tǒng)及容災系統(tǒng),起步較早,也積累了一些經(jīng)驗。下面針對山西通信容災系統(tǒng)建設的幾個方面作一個概述。
一、 集中方案的提出背景
山西通信全省集中計費及容災系統(tǒng)建設的提出是在2000年9月在詳細討論了全省各本地網(wǎng)計費現(xiàn)狀及相關(guān)廠商的軟硬件特點提出的,方案充分考慮了當時電總新的計費規(guī)范和相關(guān)軟硬件的新的技術(shù)特點,在較高的系統(tǒng)建設水平上提出的設想。通過建設集中系統(tǒng)可以有效地解決各本地網(wǎng)之間用戶量以及對系統(tǒng)需求方面的差異,使我們可以采用當今高端技術(shù)與設備來建設計費系統(tǒng);另一方面,采用全省集中的計費系統(tǒng),在業(yè)務管理、資費統(tǒng)一、機房場地、系統(tǒng)維護等方面都有十分明顯的優(yōu)勢。雖然采用集中方案后帶來了一些新的問題與挑戰(zhàn),比如,集中系統(tǒng)的安全運行需要一個堅強的軟硬件支持、需要建設一個高效、安全、方便、綜合的應用級容災系統(tǒng)作保障、需要建立全省標準化的業(yè)務流程和管理模式、需要依靠高質(zhì)量的容災系統(tǒng)軟件、應用軟件、完善的系統(tǒng)架構(gòu)和全省堅強的計費業(yè)務管理。
二、 集中計費容災系統(tǒng)的容災目標
在建設全省集中的計費帳務系統(tǒng)中,容災備用系統(tǒng)的建設起著舉足輕重的作用。建設全省集中的計費帳務系統(tǒng)在中國電信固網(wǎng)運營商中史無前例,而且建設容災備用系統(tǒng)在國內(nèi)、國際的大型計算機系統(tǒng)中也是最近幾年才逐步采用的方案,因為應用級容災技術(shù)的高難度和復雜性,其中絕大多數(shù)僅是完成數(shù)據(jù)級容災功能。數(shù)據(jù)級容災是建設容災系統(tǒng)的基礎(chǔ),但對于同步數(shù)據(jù)的可用性驗證以及利用容災備用系統(tǒng)減輕主運行系統(tǒng)的負擔等方面存在不足;同時在系統(tǒng)出現(xiàn)嚴重故障和災難時,也無法保證應用系統(tǒng)的正常運行。因此對于山西通信全省集中的計費系統(tǒng)來說,只有建設應用級容災備用系統(tǒng),才能滿足集中計費帳務的業(yè)務需求。
根據(jù)集中計費系統(tǒng)的特點以及容災系統(tǒng)軟硬件的實際狀況,我們定出了山西通信集中計費帳務系統(tǒng)的容災指標。
1. 災難的定義:
目前凡是主中心系統(tǒng)突然失去70%以上的業(yè)務運行能力或全系統(tǒng)業(yè)務停止可能超過1天以上的故障認為是災難。
2. 切換時間指標(RTO):
從決定進行切換到備用系統(tǒng)完全運行之間不超過30分鐘的目標。
3. 容災系統(tǒng)數(shù)據(jù)保護的指標(RPO) :
在一般情況下應做到不丟失數(shù)據(jù),但相應可能會增加恢復時間,因此數(shù)據(jù)損失越少,恢復時間將越長,因而系統(tǒng)可用度將越低。
容災系統(tǒng)一開始提出的初衷主要是備用,即出現(xiàn)主運行中心系統(tǒng)不能正常運行時,由容災備用中心完成系統(tǒng)功能。但在具體建設容災系統(tǒng)時將面臨我們具體要容什么災的問題,這將直接影響到容災系統(tǒng)機房的選址問題。對于集中計費系統(tǒng),容災系統(tǒng)不應當針對自然災進行設計,而應當根據(jù)容災設備的技術(shù)特點適當 考慮地理因素進行建設,避免產(chǎn)生不必要的網(wǎng)絡投資以及給后續(xù)維護帶來麻煩。針對容災系統(tǒng)要容什么災,概括如下。
1) 自然災:主要是地震、洪水、火災或供電故障等外界因素造成的災害,出現(xiàn)機率微乎其微。
2) 硬件災:主要是系統(tǒng)硬件系統(tǒng)大面積損壞造成的整個系統(tǒng)癱瘓,目前在硬件系統(tǒng)的建設中有眾多的技術(shù)可以保證硬件系統(tǒng)具有極高的可靠性及冗余故障的能力,山西通信使用了IBM最高端P680服務器,并采用了雙機集群,存貯設備使用EMC專業(yè)存貯服務器Symmetrix8730,并采用Raid0+1技術(shù)。但畢竟在應用數(shù)據(jù)上還是單點。在網(wǎng)絡的設計中采用多路由的冗余技術(shù),因此在硬件上出現(xiàn)大面積故障或存貯設備出現(xiàn)故障的可能性不太大,但這類型的故障出現(xiàn)也是正常的,對系統(tǒng)運行將是致命的,要提高其可靠性還得要增加設備,并最終建設容災系統(tǒng)。
3) 軟件災:主要包括操作系統(tǒng)、數(shù)據(jù)庫、中間件、應用軟件、人為誤操作(包括黑客行為)造成的整個系統(tǒng)癱瘓,出現(xiàn)的可能性比前兩種要多許多,人為誤操作是最容易出現(xiàn)的災害,我們的系統(tǒng)高度集中,數(shù)據(jù)庫、應用軟件兩者的配合現(xiàn)在還無法達到嚴格的安全級別,網(wǎng)絡及操作系統(tǒng)及數(shù)據(jù)被攻擊的實例屢見不鮮。
對于我們的計費系統(tǒng),主要容的是后兩種災。如果沒有這兩種考慮,我們沒有必要花巨資建設容災系統(tǒng)。這兩種災是我們建設高級別容災系統(tǒng)(應用級容災)的原因所在。
三、 建設省集中計費的容災系統(tǒng)所起的作用
山西通信建設容災備用系統(tǒng)的方案經(jīng)過近一年的討論以及相關(guān)專家、廠商的論證,認為目前的容災方案成熟可行,和分散方案與建立全省三大區(qū)方案相比,節(jié)約了資金投入。在容災方面也考慮到容災系統(tǒng)的特點,進行了合理的設備配置,將根據(jù)網(wǎng)間結(jié)算系統(tǒng)的特點將其移到容災中心運行;容災中心基于EMC的BCV以及SRDF技術(shù)對Symmetrix8730存貯服務器的磁盤不使用Raid保護等,節(jié)約了投資,使容災系統(tǒng)發(fā)揮最大作用。容災備用系統(tǒng)在整個系統(tǒng)所起的作用是多方面的,它的作用決不僅僅限于容災作用,其建設為集中系統(tǒng)的安全實現(xiàn)提供了堅強的后備保障基礎(chǔ),還為系統(tǒng)建設的前期、中期、后期提供多方面的支持,容災系統(tǒng)主要作用表現(xiàn)在如下方面。
1.完成運行數(shù)據(jù)的可靠實時復制,確保應用所有數(shù)據(jù)的安全。
2.完成應用軟件及數(shù)據(jù)的脫機備份,從根本上將備份工作從生產(chǎn)系統(tǒng)中解放出來,提高了備份效率,降低了備份工作對主運行系統(tǒng)的性能影響。
3.利用容災備用系統(tǒng)的可分離生產(chǎn)備份數(shù)據(jù)(BCV)可以從很高級別上解決數(shù)據(jù)級容災中存在的備份數(shù)據(jù)可用性不能進行驗證的問題。同時,可以進行應用一級的數(shù)據(jù)備份與恢復(EXP&IMP等)。
4.容災系統(tǒng)不應僅僅是容災、備用和備份,它還可以完成一些在主中心難以完成的事情,并可以降低主中心的運行負荷。這主要是將利用空分和時分的原理將主中心的部分業(yè)務(時效性不十分強,但最消耗資源,如查詢、統(tǒng)計、數(shù)據(jù)挖掘等)分流到容災備用系統(tǒng)上運行,當容災中心有問題時移回主中心工作。
5.作為每個本地網(wǎng)開通前的驗證場所,同時也為測試提供最貼近的應用數(shù)據(jù)真實環(huán)境,最大程度保證了每個本地網(wǎng)進入集中系統(tǒng)時的可靠性,降低對主系統(tǒng)帶來的風險。
6.在計費系統(tǒng)以后的擴展中,不便在主中心建設的系統(tǒng),可以在容災備用系統(tǒng)(準確點應叫作輔系統(tǒng))上建設,可以利用主系統(tǒng)存貯設備進行數(shù)據(jù)級容災,因此,建設一個完整的容災備用系統(tǒng)對以后系統(tǒng)的擴展具有極大的靈活性。
7.以后針對計費數(shù)據(jù)分析系統(tǒng)(數(shù)據(jù)倉庫技術(shù))的建設可以十分容易地擴展容災備用中心的硬盤后建成,而不用另建系統(tǒng)或在主系統(tǒng)上進行擴容,在主系統(tǒng)再建立數(shù)據(jù)挖掘系統(tǒng)將是一個十分危險的事情;另建設一個系統(tǒng)效果一定不好,因為這些系統(tǒng)的基礎(chǔ)數(shù)據(jù)基本都是計費系統(tǒng)數(shù)據(jù),大數(shù)據(jù)的遷移很困難,實時性無法保障。
8.應用級容災系統(tǒng)從最高水平上達到計費業(yè)務的連續(xù)性。
9.容災備用系統(tǒng)與主系統(tǒng)在空間的分割可以有效地防止火災、電源故障、大部分自然災害和全部的硬件、軟件故障引起的業(yè)務停頓。
四、 建立容災系統(tǒng)后要重點注意的事情
1.建設容災系統(tǒng)后對容災系統(tǒng)的運行效果和狀況的了解至關(guān)重要,隨著系統(tǒng)集中化程度的提高,數(shù)據(jù)同步以及備份的復雜度也在提高,因此要加強對數(shù)據(jù)可用性的驗證工作,并定期進行容災系統(tǒng)的模擬演練。
2.建立完善的容災操作流程,在容災模擬演練中逐步完善,確保在災難發(fā)生時各項操作做到有條不紊。
3.應用級容災更大要求業(yè)務的連續(xù)性,因此在建設容災系統(tǒng)時單純依靠硬件及存貯的數(shù)據(jù)同步與復制功能還遠遠不夠,多種類、多級別、自動化的備份是提高容災水平的一項重要措施。
4.盡量減小主系統(tǒng)與容災系統(tǒng)、生產(chǎn)數(shù)據(jù)與備份數(shù)據(jù)之間的耦合度和關(guān)聯(lián)性,在數(shù)據(jù)恢復和災難切換方面要注意人的因素,制定切實可靠的針對不同情況的數(shù)據(jù)恢復及容災切換方案。
(作者為山西省通信公司計費結(jié)算中心高級技術(shù)經(jīng)理)
作者供稿
原文刊登于中國計費網(wǎng)(www.billingchina.com)
相關(guān)鏈接: