
現(xiàn)代的云數據中心有數以百計的服務器,上面運行著上千個虛擬機,還有各種網絡設備和存儲,管理運營數據中心是一個挑戰(zhàn):需要監(jiān)控的對象超出人力所及的范圍,需要分析的報警數據根本來不及處理。在這樣的壓力下,管理員疲于奔命,被動式地響應服務請求,累得跟狗一樣還總是有人報怨故障解決得太慢,IT民工咋那么命苦呢?別著急,vRealize Operations就是改變廣大運營維人員命運的一款神器。
保證服務質量
vROps會代替管理員監(jiān)控數據中心內的所有設備,而且是24小時不間斷地,不會漏掉任何報警信息。但是它不會簡單地把收到的信息直接呈現(xiàn)給管理員,而是進過整理和分析之后進行總結,過濾掉關于同一故障的大量冗余信息,最后以三個非常簡單的超級指標形式展現(xiàn):健康狀況、系統(tǒng)風險、運行效率。管理員通過vROps及時發(fā)現(xiàn)和解決問題,采取措施預防潛在風險和提高運行效率,來保證整個數據中心的服務質量等級SLA。

vROps會根據歷史數據進行分析,對系統(tǒng)的性能和風險作出智能預測,最后通過超級指標提示管理員。神奇的是,vROps不但通能指出問題所在,而且能進一步給出整改意見。
舉個栗子:在下圖中,vROps顯示“健康”和“風險”這兩項指標都有問題,管理員就應該看一下每個指標下的詳細信息。“健康”指標下的第一條警告顯示有些虛擬機由于快像太多而導致磁盤I/O延遲問題,點開后就可以看到進一步的詳細指示:刪除多余的快像,把多余的快像合并成一個。管理員按照指示采取相應的操作之后,就可以消除這一系統(tǒng)性能問題。

漲姿勢:虛機的數據存放在虛機的鏡像文件中,虛機的快像(snapshot)實際上是把虛機目前的狀態(tài)跟原鏡像之間的差異保存在一個delta文件中。當虛機有多個快像時,就有多個對應的delta文件存在,每個delta文件記錄跟前一個虛機狀態(tài)之間的差異,虛機當前的數據是由所有這些delta文件和原鏡像疊加計算出來的。所以虛機的鏡像不宜太多,不然會嚴重降低系統(tǒng)性能,刪除一些不必要的快像可以減輕文件讀寫負擔,提高系統(tǒng)性能。
提高運營效率
從上面的例子可以看到,vROps不僅可以幫助快速定位問題,還能指導管理員迅速解決問題。據統(tǒng)計,vROps可以減少大約50%的排錯時間,從而大大減少管理員的工作負擔,好讓他們也有時間去陪妹紙呀。
為了防止容量不夠而引起故障,應用部門在申請?zhí)摍C容量時往往向上靠,又導致了容量的過量分配。盡管VMware也提供了Thin Provision的虛擬硬盤分配選項,但是在服務器中經常選擇性能更優(yōu)的Thick Provision,過量分配就會占用大量的硬盤空間。另一方面,有些虛擬機用完以后也沒有被及時注銷,數據中心每隔一段時間就會出現(xiàn)僵尸虛機,也占用著寶貴的內存和存儲空間。
vROps提供了容量分析工具來讓管理員定期檢查系統(tǒng)資源的使用情況,一旦發(fā)現(xiàn)資源不足(超出警戒線)或是過量分配的情況,就能及時采取措施,來化解資源短缺的險情,回收過量分配的資源。這么做一方面可以有效防止因為資源短缺而引起的故障風險,另一方面也可以有效利用現(xiàn)有的硬件資源,降低數據中心的硬件采購成本。
在啟動新項目之前,管理員可以使用vROps來針對容量進行What-If假設分析,看看現(xiàn)有的容量是否能滿足新項目的需求。如果容量不夠的話,可以規(guī)劃一下需要加入多少新的服務器或存儲才能滿足新增需求;也可以查找可回收的資源,計算一下這些資源回收以后能否滿足需求。

漲姿勢:vSphere在創(chuàng)建虛機時虛擬硬盤有三種格式可以選擇:
Thick Provision Lazy Zeroed
一開始就分配足額空間給虛擬硬盤,但是等真正寫入數據時才初始化(寫0);
一開始就分配足額空間給虛擬硬盤,但是等真正寫入數據時才初始化(寫0);
Thick Provision Eager Zeroed
一開始就分配足額空間給虛擬硬盤,并且完全初始化(寫0),性能最優(yōu);
一開始就分配足額空間給虛擬硬盤,并且完全初始化(寫0),性能最優(yōu);
Thin Provision
根據虛擬硬盤的實際使用來分配空間,但在性能上要比上面兩種差一些。
根據虛擬硬盤的實際使用來分配空間,但在性能上要比上面兩種差一些。
控制和合規(guī)
出于安全、性能和管理等方面的要求,每個數據中心都有一系列的規(guī)章制度。舉個栗子:DCUI(Direct Console UserInterface)是vSphere在每臺物理服務器上的管理界面,它有一個LoginIdle Timeout參數一定要設置(建議設成10分鐘),不然管理員忘記Logout就走開了,碰到惡意搞破壞的壞人就會有安全隱患。
類似這樣的安全強制條例可能有上百條,數據中心的每一臺設備都要求符合這些規(guī)定。讓管理員一臺一臺去檢查嗎?別逗了,那別的工作什么都不用干了。vROps可以自動檢查數據中心里所有設備的合規(guī)性(Compliance),把不合規(guī)的情況一條條列出來,管理員可以隨后手工改正這些問題,也可以讓vROps強制(Hardening)修正。

大家可能也聽說過VMware的另一個監(jiān)控工具vRealize LogInsight,vROps跟它是什么關系呢?vROps跟LogInsight是這樣分工的,vROps負責收集和監(jiān)控結構化的數據,包括各種系統(tǒng)指標、告警、事件等;LogInsight負責收集和監(jiān)控非結構化的數據—所有的文本日志,這些日志分布在多個設備和服務中,由LogInsight來把它們收集到一起,這樣管理員就可以在一個地方看到所有的日志。兩個工具一起協(xié)作來共同支持數據中心中的運營管理工作,實際上vROps和LogInsight也是所有vRealize套件產品中的基礎組件。

通過上面的介紹大家可以看到vROps有這么強的管理功能,有了這樣一個工具的幫助,云數據中心的管理工作就不再是MissionImpossible。
漲姿勢:vRealize產品家族
VMware把云管平臺產品家族命名為vRealize,包括4個主要產品:
- vRealize Business,IT資源成本核算
- vRealize Automation,自動化部署IT服務
- vRealize Operations,監(jiān)控運營數據中心
- vRealize LogInsight,日志管理平臺
另外,也有以上幾個產品組合在一起的套件產品vRealize Suite,分成標準版、高級級和企業(yè)版三個不同等級的版本。