每年,華為內(nèi)部網(wǎng)絡配置的變化量高達50萬行,還要應對數(shù)據(jù)中心搬遷以及設備替換等這樣需要在短時間內(nèi)進行大批量策略調(diào)整的工作;每年的版本/補丁升級、設備替換、配置優(yōu)化以及應急演練等變更操作超過500次。如此巨大的工作強度之下,網(wǎng)絡運維人員卻只有區(qū)區(qū)10人,這是如何做到的呢?云計算時代,在業(yè)務快速增長的前提下,又如何才能在不增加運維人員的同時保持IT系統(tǒng)99.999%可用性?
從運維的角度看云數(shù)據(jù)中心網(wǎng)絡
隨著云計算的不斷發(fā)展,云數(shù)據(jù)中心網(wǎng)絡顯現(xiàn)出4個特征:服務化、自動化、虛擬化和智能化。服務化將網(wǎng)絡包裝成服務,服務可以按需自助、彈性擴展資源;自動化可以實現(xiàn)網(wǎng)絡自動部署、策略隨云而動;虛擬化通過SDN和NFV將網(wǎng)絡Underlay和Overlay分離;智能化則是指資源統(tǒng)一管理、網(wǎng)絡智能可視。這4大特征有效地支撐了云業(yè)務的快速、靈活和彈性,但是其發(fā)展卻并不均衡——面向用戶的特性往往優(yōu)先于面向運維的,所以,網(wǎng)絡在快速云化的同時,也給運維帶來了很大挑戰(zhàn)。
- 網(wǎng)絡設備數(shù)量不斷增長,但是運維人力有限;
- 網(wǎng)絡運維自動化程度低,仍延續(xù)“人拉肩扛”的方式;
- 網(wǎng)絡的復雜性不斷增加,對管理員的技能要求高,可用性保障困難;
- 網(wǎng)絡監(jiān)控廣度和深度不足,但告警信息卻又太多,關鍵告警被淹沒。
網(wǎng)絡運維能力不僅意味著保障可用性,還包括如何有效提升運維效率、提高服務水平,給用戶提供低成本、高效率和高質(zhì)量的網(wǎng)絡服務。網(wǎng)絡運維能力是云數(shù)據(jù)中心網(wǎng)絡的核心競爭力之一,未來,網(wǎng)絡運維的發(fā)展方向在于逐步實現(xiàn)自動化、智能化和無人值守,這其中,如何構建智能化網(wǎng)絡運維平臺是關鍵。
每年,華為內(nèi)部網(wǎng)絡配置的變化量高達50萬行,變更操作超過500次,網(wǎng)絡運維人員卻只有區(qū)區(qū)10人,如此巨大的工作強度是如何做到的?構建智能化網(wǎng)絡運維平臺是關鍵。
構建智能化網(wǎng)絡運維平臺
智能化網(wǎng)絡運維平臺主要瞄準4個目標:秒級故障定位、分鐘級故障隔離與自愈、網(wǎng)絡質(zhì)量可預測與可優(yōu)化,以及全生命周期運維自動化。
華為規(guī)劃的智能化網(wǎng)絡運維平臺(見下圖)由網(wǎng)絡監(jiān)控平臺、網(wǎng)絡智能分析平臺和網(wǎng)絡自動化平臺這3大平臺組成,平臺間相互協(xié)同形成一個閉環(huán)自制的網(wǎng)絡運維系統(tǒng),最終實現(xiàn)無人值守的目標。

相對于傳統(tǒng)的運維平臺,智能化網(wǎng)絡運維平臺有3個明顯的特性:
閉環(huán)的自動化平臺
傳統(tǒng)的網(wǎng)絡運維平臺有很多平臺和工具,他們各自工作、相互獨立。而網(wǎng)絡智能平臺首先是一個開放的平臺,網(wǎng)絡設備從添加到監(jiān)控、從信息采集和分析到告警及自愈,都能實現(xiàn)閉環(huán)的自動化處理。
大數(shù)據(jù)平臺
- 云數(shù)據(jù)中心網(wǎng)絡的網(wǎng)元數(shù)量呈指數(shù)級增長,使得監(jiān)控信息也海量增長。以華為IT云數(shù)據(jù)中心網(wǎng)絡監(jiān)控為例,2014年監(jiān)控的網(wǎng)絡指標不到40000個,到2017年已發(fā)展到上千萬個,這對監(jiān)控采集系統(tǒng)以及數(shù)據(jù)平臺都是一個很大的挑戰(zhàn)。
- 網(wǎng)絡監(jiān)控的深度、廣度和頻度極大提升,采集的信息更加精準有效。監(jiān)控以前是只抓重點,現(xiàn)在則是盡可能多采集信息。事實也證明,信息越多,監(jiān)控和分析就越有效。以監(jiān)控頻度為例,如果將網(wǎng)絡流量的監(jiān)控頻度由300秒/次調(diào)整到10秒/次,就會發(fā)現(xiàn)監(jiān)控流量的峰值由1.29Gbps變成了8.3Gbps,是原來的6倍,也能發(fā)現(xiàn)很多原來隱藏的問題。
- 所有監(jiān)控數(shù)據(jù)不再是孤立的存在,多個采集系統(tǒng)之間的數(shù)據(jù)可以集成,以進行關聯(lián)分析。以前的監(jiān)控數(shù)據(jù)存放在不同的網(wǎng)管工具中,SNMP、LOG等監(jiān)控都各自為政,F(xiàn)在所有的監(jiān)控數(shù)據(jù)都統(tǒng)一匯總到數(shù)據(jù)平臺,可以從時間、設備等維度拉通進行分析。
智能分析平臺
- 故障預測能力。傳統(tǒng)網(wǎng)管更多提到的是監(jiān)控,但是否能在故障發(fā)生之前就知道哪里即將發(fā)生問題并提前處理掉?現(xiàn)在不少互聯(lián)網(wǎng)企業(yè)已經(jīng)具備了硬盤的故障預測能力,準確率達到90%以上。對于網(wǎng)絡來說,也有光模塊這種易耗件,以及不可預知的業(yè)務增長和突發(fā),那么是否也能實現(xiàn)精準預測?
- 關聯(lián)分析能力。華為在2014年的網(wǎng)絡監(jiān)控指標還不到40000個,每日告警大約40個,如果不進行優(yōu)化,當2017年監(jiān)控指標達到1000萬個,告警按比例會達到10000個。沒有關聯(lián)分析能力,海量監(jiān)控就會是一個災難。
- 故障分析能力。Google認為“任何需要人工操作的事情都只會延長恢復時間。”故障自愈的前提就是故障分析能力,而大數(shù)據(jù)使得故障分析更加簡單。以二層環(huán)路問題為例,其人工定位并不復雜。以前,華為嘗試通過專家系統(tǒng)來實現(xiàn)自動定位,當出現(xiàn)問題后,工具需要登錄設備采集信息進行判斷,但由于工具并不知道網(wǎng)絡架構和組網(wǎng),實現(xiàn)起來非常復雜,效率較低且準確性不高;而現(xiàn)在,通過采集所有設備的接口信息,只需要基于二層環(huán)路的指標特征進行統(tǒng)計分析,就能快速找到引起環(huán)路的問題點,實現(xiàn)也變得非常簡單,而且可以實時監(jiān)控。
- 業(yè)務分析能力。云的資源池跨越多個DC,如果能夠基于業(yè)務和應用進行智能分析,就可以知道應用與虛擬機之間的訪問頻率和流量模型,從而將關聯(lián)最密切的資源就近部署,提升應用性能的同時節(jié)省網(wǎng)絡資源。業(yè)務分析能力不僅在資源調(diào)度方面,在安全策略智能推薦、應用關聯(lián)分析、業(yè)務影響分析以及故障分析等方面都可以發(fā)揮積極貢獻。
華為在開源Cacti工具基礎上對其代碼進行了優(yōu)化,使得單臺服務器5分鐘的監(jiān)控能力從大約30萬個提升到200萬個,監(jiān)控1000萬個指標從需要30多臺服務器降低到只需5臺即可。
華為IT的智能化網(wǎng)絡運維平臺實踐
網(wǎng)絡自動化
網(wǎng)絡自動化可覆蓋22個運維場景,包括策略增刪改、健康檢查、停電檢修和轉產(chǎn)驗收等頻度高、重復性強且耗費人力多的工作。華為每年有超過15萬的防火墻策略調(diào)整,如果按照傳統(tǒng)的運維模式,需要投入公司所有的運維人力;而實現(xiàn)自動化后,基本無需管理員干預,而且還可以實現(xiàn)策略的一致性、合理性和合規(guī)性。
海量網(wǎng)絡設備的自動化工具開發(fā),相比于傳統(tǒng)的腳本實現(xiàn)有很多不同。設備類型和配置方案多樣,如何實現(xiàn)一個程序在所有場景通用?設備數(shù)量多,如何提高程序與設備的交互效率?都是需要重點解決的問題。通過規(guī)則與自動化程序解耦、采用非阻塞的socket交互方式以及線程優(yōu)化控制等措施,可以實現(xiàn)20分鐘內(nèi)完成10000臺網(wǎng)絡設備的配置下發(fā)。
網(wǎng)絡監(jiān)控
如果依靠開源Cacti工具的原生能力,單臺服務器5分鐘可以監(jiān)控的指標大概在30萬個,要監(jiān)控1000萬個指標就需要30多臺服務器。華為在開源代碼的基礎上對其進行了優(yōu)化,包括優(yōu)化了數(shù)據(jù)存儲和告警算法、重寫了部分模塊代碼等,使得單臺服務器5分鐘的監(jiān)控能力提升到200萬個,這樣只需5臺服務器即可監(jiān)控1000萬個指標。同時還設計了松耦合的Master-Slave部署架構,將監(jiān)控數(shù)據(jù)的采集進行了負載分擔,并通過MySQL數(shù)據(jù)庫集群方式保證了數(shù)據(jù)模板的一致性和集中展示,使工具具備了Scaling-Out架構,前臺可以進行數(shù)據(jù)統(tǒng)一展示查詢,而后臺數(shù)據(jù)采集、SQL關系維護和數(shù)據(jù)存儲則可以分散部署。
華為自建了網(wǎng)絡日志系統(tǒng),可以實時收集現(xiàn)網(wǎng)設備日志,并針對關鍵字進行監(jiān)控告警。同時還可對每天收集到的1500萬條日志進行預處理,一方面通過對日志的結構化處理提取出時間、類型、級別和關鍵字等信息;另一方面對日志進行豐富化處理,通過與網(wǎng)絡配置庫(CMDB)對接,自動關聯(lián)設備所屬的網(wǎng)絡和型號等信息,以增強日志的可讀性,支持多維度的日志信息檢索和可視化。
網(wǎng)絡智能分析
現(xiàn)在,華為云數(shù)據(jù)中心網(wǎng)絡每萬個監(jiān)控指標的告警量已由2014年的每天10個大幅下降到了0.5個,這主要有賴于對歷史告警的大數(shù)據(jù)分析持續(xù)優(yōu)化了監(jiān)控告警閾值的設定,同時結合不同的網(wǎng)絡場景使用過濾、去重和Flapping抑制等方法減少了無效告警數(shù)量。
光模塊是云數(shù)據(jù)中心網(wǎng)絡中故障率最高的部件,據(jù)華為統(tǒng)計,每年運行中故障率大概在2‰。而光模塊一旦出現(xiàn)故障會造成丟包等問題,對業(yè)務影響很大,現(xiàn)網(wǎng)中就曾經(jīng)發(fā)生過由于骨干鏈路上的一個光模塊故障導致網(wǎng)絡丟包、最終影響到了幾十個應用的案例。因此,如果能通過對光模塊的檢測和預測提前識別問題就可以避免對業(yè)務造成嚴重影響。
為此,華為對影響光模塊運行狀態(tài)的指標進行了嚴密監(jiān)控,每天收集現(xiàn)網(wǎng)80000個光模塊的運行信息,結合專家經(jīng)驗和機器學習方法發(fā)掘光模塊各指標與異常故障之間的關聯(lián),并循環(huán)調(diào)優(yōu)檢測算法,迅速識別已經(jīng)故障的模塊;同時,依靠機器學習和時間序列分析方法對未來一段時間內(nèi)的多指標進行預測,判定光模塊的未來狀態(tài)是否滿足異常故障的條件,并將已故障模塊的歷史指標序列作為輸入樣本來確定和調(diào)優(yōu)預測算法,使得目前故障光模塊的預測準確性已接近50%。
云開啟了網(wǎng)絡運維的新篇章,華為將持續(xù)構建智能化網(wǎng)絡運維平臺,不斷拓展自動化、網(wǎng)絡監(jiān)控和智能分析等場景,形成閉環(huán)的網(wǎng)絡運維體系,實現(xiàn)秒級故障定位、分鐘級故障隔離與自愈、網(wǎng)絡質(zhì)量可預測與可優(yōu)化,以及全生命周期運維自動化的目標。讓網(wǎng)絡運維向著無人值守這一終極目標大步邁進!