云服務(wù)的故障很?chē)?yán)重。故障期間和故障之后的服務(wù)中斷讓事情變得更糟糕。微軟的高管們對(duì)此非常了解,并且計(jì)劃改進(jìn)該公司處理Azure故障的溝通方式。
我注意到微軟已經(jīng)越來(lái)越少地使用Azure狀態(tài)頁(yè)面來(lái)通知用戶(hù)云服務(wù)故障,這種情況已經(jīng)持續(xù)了一段時(shí)間了。早在今年三月份,美國(guó)東部地區(qū)出現(xiàn)了幾個(gè)小時(shí)的故障——這是微軟最活躍的區(qū)域之一,狀態(tài)頁(yè)面上就沒(méi)有關(guān)于此次故障的消息——而推特上對(duì)此事的抗議和吐槽也很少(這是云服務(wù)故障的另一個(gè)重要的晴雨表)。
事實(shí)證明,這種安靜是設(shè)計(jì)的結(jié)果。微軟一直在努力讓其云用戶(hù)進(jìn)入其個(gè)性化的Service Health頁(yè)面,而不是面向公眾的Azure狀態(tài)網(wǎng)站。而且,該公司在推特上的Azure支持帳戶(hù)一直在嘗試引導(dǎo)用戶(hù)查看這些頁(yè)面,并且/或者在用戶(hù)需要有關(guān)故障的最新信息時(shí)直接向該帳戶(hù)發(fā)送消息。 (說(shuō)服用戶(hù)擺脫推特的束縛也有利于讓我們這些令人討厭的記者更難跟蹤故障的情況,從而減少了“Azure故障”標(biāo)題出現(xiàn)的數(shù)量。)
在本周的博客中,負(fù)責(zé)Azure故障溝通流程的首席項(xiàng)目經(jīng)理Sami Kubba介紹了微軟目前的狀況以及該公司在故障溝通方面的一些打算。他的帖子是微軟一系列文章的一部分,這個(gè)系列的文章介紹了微軟努力改進(jìn)Azure可靠性、性能等工作采取的一些措施和方法。
他指出,微軟的目標(biāo)是在故障出現(xiàn)的15分鐘之內(nèi),通知所有受到影響的Azure訂閱用戶(hù)。微軟使用人類(lèi)和自動(dòng)通知機(jī)制來(lái)完成這項(xiàng)工作。他表示,通過(guò)服務(wù)運(yùn)行狀況(Service Health)發(fā)出的自動(dòng)通知在上季度微軟故障溝通量中已經(jīng)占到了總量的一半以上。Kubba表示,微軟的目標(biāo)是繼續(xù)減少公司通知用戶(hù)故障的時(shí)間。
他補(bǔ)充表示:“擴(kuò)展我們對(duì)基于人工智能的操作以自動(dòng)識(shí)別相關(guān)受影響的服務(wù),并且在問(wèn)題得到解決之后,盡快發(fā)送解決方案消息,我們目前還處在這個(gè)進(jìn)程的早期階段。”
Kubba承認(rèn),微軟目前只通過(guò)公共Azure狀態(tài)頁(yè)面來(lái)通告“廣泛的”故障——這意味著影響了多個(gè)區(qū)域和/或服務(wù)的故障。微軟通過(guò)Service Health直接與受影響的客戶(hù)進(jìn)行內(nèi)部溝通,并用這種方式解決了目前95%的故障。Kubba表示之所以會(huì)有這么高的比例,主要是因?yàn)榻^大多數(shù)故障只會(huì)影響很小一部分訂閱用戶(hù)。
Azure Service Health是一套體驗(yàn),可為Azure服務(wù)問(wèn)題提供個(gè)性化指導(dǎo)和支持,包括故障甚至是計(jì)劃內(nèi)的維護(hù)。AzureService Health由Azure狀態(tài)、Service Health服務(wù)和Resource Health組成。
Kubba表示,微軟正在努力在該公司其他的云產(chǎn)品(包括Microsoft 365和Power Platform)中推廣這種故障通告系統(tǒng),從而使之保持一致。客戶(hù)目前已經(jīng)可以在推特上看到M365狀態(tài)帳戶(hù),它將用戶(hù)引導(dǎo)到該公司的門(mén)戶(hù),并在故障出現(xiàn)時(shí)直接將消息發(fā)送到那里。
正如我過(guò)去所指出的,此系統(tǒng)適用于管理員以及具有管理員訪問(wèn)權(quán)限的云帳戶(hù)用戶(hù)。但是,在故障出現(xiàn)的時(shí)候,除非IT部門(mén)在內(nèi)部向用戶(hù)發(fā)出通告,否則仍然會(huì)有很多用戶(hù)會(huì)到推特上發(fā)問(wèn),看看是否有其他人也遇到了同樣的情況,并且詢(xún)問(wèn)Office 365故障到底是何時(shí)發(fā)生的之類(lèi)的問(wèn)題。
Kubba確實(shí)表示過(guò),在比較小的故障之后,客戶(hù)可以要求事后報(bào)告(比較大的故障將有公開(kāi)的執(zhí)行報(bào)告),他表示該團(tuán)隊(duì)一直努力使事情變得更加透明,并且向用戶(hù)展示微軟為了解決與當(dāng)前故障同類(lèi)型的問(wèn)題會(huì)采取的具體步驟。來(lái)源:ZDNet