apache google Python Android java Firefox 程序员 nginx shell wordpress Windows 微软 mysql Ubuntu php centos 编程 云计算 linux 开源

《雲數據中心構建實戰:核心技術、運維管理、安全與高可用》——1.5 數據中心管理與運維

1.5 數據中心管理與運維

電子設備如果缺乏良好的管理機制,會加快其淘汰的步伐,而高效、合理的運維可以使電子設備長久保持一顆年輕的“心”。在數據中心整個生命周期中,管理和運維是耗時最長、持續性最久的一個環節,我們需要清楚地了解運維需要實現的目標和管理的範疇等諸多方面。
1.5.1 數據中心管理運維目標
業務系統可以快速、穩定、持續的應用,這是應用層面所要達到的目標,在數據中心的生命周期中的管理運維更為全面,更具有針對性,我們需要滿足四個目標。
1)連續可用性。數據中心的各個模塊、功能組件每年都會有計劃性維護和潛在的非計劃性維護。非計劃性維護過程中或許會造成業務系統的中斷,這將導致業務系統不可使用,企業信息系統的連續性受到破壞。這就要求數據中心管理運維過程中監控各組件的運作指標,發生異常狀況是通過自動或者手動的管理進行系統間的切換,保持信息系統連續可用性。
2)完整合規性。數據中心對服務、系統、數據都要嚴格符合國家頒布的各項法律、法規等,不允許有任何違反相關規定的狀況出現,提供公有雲服務的數據中心針對涉外企業時,還需要遵守使用國和國際通行的法律、標準、準則等。所有的管理運維過程必須有相應的書面或者授權的電子記錄,可以接受企業信息內部審核以及第三方審核。
3)指標量化性。因數據中心投入較多,故也有人稱之為企業的成本中心,究其原因就是在傳統數據中心對IT的投入和產出沒有良好的量化指標。需要建立一套完整的財務核算機制,明確數據中心目前和未來所要實現的財務目標,通過核算、會計等手段找出管理運維的成本高點,並做出可行性變更。對提供的信息系統、存儲資源提出按需計費模式,將信息成本分攤,再通過量化的數據呈現給CIO、CTO、CEO,均衡成本讓企業的成本中心更為明確,也為日後的管理運維奠定基礎。
4)自助服務性。傳統數據中心是以“設備”為中心進行管理,隨著企業信息化的逐步發展,以“用戶”為中心的模式正在崛起,管理人員只需在服務端建立相應的平臺,用戶即可通過電腦、筆記本,甚至Windows Phone 7、Symbian、iOS、Android等移動平臺進行自助應用。數據中心管理和運維的焦點會逐步轉移到服務後臺,通過構建管理框架和流程來滿足用戶的需求。
這四個目標為管理和運維指引了方向,涉及每個層面、每個資源,我們需要有一套完整的機制來采取針對性的措施。
1.5.2 數據中心管理運維範疇
為維系企業信息系統的正常運轉,數據中心部署了太多的硬件、軟件、系統、服務,從內部環境、基礎設施、網絡資源、安全管控等諸多方面都需要全面的管理和運維,接下來我們了解數據中心生命周期內都有哪些環節需要我們來管控。

內部環境的管理和運維
非授權人員不能進出數據中心,即便是授權人員也只能在授權範圍內進行規定操作,這就需要將數據中心的區域進行劃分,主要分為進線設備區域(ENTRANCE ROOM)、主要分布區域(MDA)、水平分布區域(HDA)、設備分布區域(EDA)和區域分布區域(ZDA)五大區域。

進線設備區域:用於存放ISP專線、光纖以及接入線纜;
主要分布區域:用於存放主幹線纜、配線架、交換機和路由器,負責數據的轉發;
水平分布區域:用於存放LAN交換機、SAN交換機等,負責數據交換;
設備分布區域:用於存放刀片式服務器、機架式服務器、存儲設備、自動控制系統和一些外圍設備,它們以機架模式呈現;
區域分布區域:用於輔助設備分布區域,當設備分布區域內設備不宜變動,ZDA可以使用區域性插座或集合點為EDA提供連接點。
數據中心內部的區域劃分和布線子系統的劃分有一些相互重疊的地方,比如水平分布區域和水平布線系統,但是它們有著本質的區別。布線子系統關註的是整個企業網絡,不管是數據中心還是遠端的客戶端都需要考慮;而數據中心區域的劃分則更註重內部的建設和管理,並通過授權的操作管理運維人員的使用權限,避免進入非授權人員在不正確的地點做出錯誤的操作。

基礎設施的管理和運維
首先,需要對設備進行關鍵分級,要知道核心交換機的關鍵程度遠遠高於UPS電池組中的一塊電池,所以關鍵等級不僅為管理運維指明方向,也會使我們的側重點更加清晰。
接下來需要明確責任,對交換機、服務器、基礎供電、冷卻等系統的權責進行明確劃分,指定相關運維人員和監督人員,避免越權管理。
基礎設施的計劃性的運維必須嚴格按照時間安排來操作,並填寫維護人員的信息、操作的內容、反饋的結果等,對於緊急的、臨時的、非計劃性的運維,除填寫上述信息外,還需要分析運維行為發生的原因、處理的過程與結果、應對方案和故障規避方案等。

系統資源的管理和運維
數據中心逐漸向虛擬方向靠攏,下一代數據中心高度虛擬化的應用將更突出,一臺物理服務器虛擬多個系統,或者多個物理設備虛擬一個虛擬服務都將成為常態,單一的物理設備出現了硬件層面的損壞會對整個數據中心造成損壞嗎?
如果集群環境、備份措施部署到位,單一物理設備損壞不會對整體造成太大的沖擊,但我們不能忽略的是,設備的損壞勢必會造成其承載的系統癱瘓,如需保證聯系連續性則必須通過自動化的遷移將虛擬系統轉移至負載較輕的主機中,這就需要平臺有足夠的管理能力。
系統資源的管理和運維需要依靠平臺來進一步強化,不管是軟件級的還是系統級的補丁,升級程序都由平臺來完成修復;所有的資源都以池化的視圖呈現給管理人員,方便管理人員統籌部署;各種資源調度、系統遷移、負載均衡都可以依靠平臺自動的智能服務來完成,物理的、虛擬的、同構的、異構的系統同樣如此。

網絡資源的管理和運維
對於整個網絡需要有完整的拓撲結構,當新購置的交換機接入網絡或者報廢的交換移除網絡時,網絡拓撲結構都需要及時變更,並且所有的網絡操作必須有指定的網絡工程師來完成。事前需要有全面的測試,事後需要呈報操作日誌,設備增減完畢後更新網絡拓撲結構,並予以存檔、備案。
對於網絡的訪問權限,需要進行嚴格的劃分,數據中心關鍵設備、企業高層領導、開發人員、辦公人員、生產人員以及外來人員等,需要部署網絡虛擬化將不同的設備或者人員劃分到邏輯子網中。
網絡資源的管理還可以利用智能布線系統,當不明線路接入網絡中可以第一時間發現並處理,同時還可以依靠智能的網絡掃描生成網絡拓撲,智能地規劃MAC過程表。

安全管控的管理和運維
設備也好,系統也罷,如果脫離了安全管控將會造成很多不可預見的麻煩,安全層面的管理和運維會涉及很多方面。
權限的設置在任何環境下都是非常有效的,門禁系統、網絡設備、服務器都需要嚴格的權限區分,謹防有意識的或者無意識的破壞;不安全的上網行為需要通過路由器、防火墻、IDS、IPS、上網行為管理協同辦公;網內的病毒需要系統補丁和網絡版殺毒軟件來預防和清除;同時所有的操作都需要有相應的日誌,以便後期的審核與追溯。
運維和管理並非一朝一夕,在數據中心生命周期內,這些工作需要持續性地進行。企業的信息需求會隨著時間的推移越來越多,對數據中心的要求也會越來越嚴格,管理、運維工作要根據不斷變化的信息需求來進一步深化和改進,未來的IT領域不會是“單兵作戰”模式,更多的聯系、更多的共享將是未來數據中心的發展方向,雲技術也在潛移默化地改變數據中心當前的管理行為。
1.5.3 數據中心的運營要求
不管是CEO,還是CTO,再或者是企業用戶都會認為數據中心只是“企業成本中心”,就是因為數據中心只有大手筆的資金投入而看不到實質性的收益。
這只是早前的概念,隨著虛擬化的深入發展、綠色數據中心的漸行漸近、按需服務的推廣、面向應用的程度越來越高,成本中心的概念逐漸遠去。在未來,我們的數據中心將會擁有這樣的特征。

合理布局
初入某個100m2的小型數據中心,我們或許會看到整齊的機架、規範的布線,還有合適的溫度,但是如果將這個數據中心擴大幾十倍,就會發現無數的機架難以管理,分布的線纜雜亂無章,甚至溫度都會變得相當復雜。
很多數據中心的管理人員也知道復雜性給數據中心的管理和運維會造成頗多的麻煩,前期的規劃很充分,但是隨著設備的不斷增加會打亂數據中心整體的部署。為了避免這種狀況的發生,需要在數據中心建設階段就進行良好的規劃,對未來10年的設備增幅進行預估,這可保證新設備進駐數據中心時不會破壞原有環境。
對於大型數據中心可更傾向於“集裝箱式”,線路的引入、電力的支撐、冷卻的資源都經過完善的設計,每一個集裝箱內部都有獨立的機架模型,增加、減少設備只需要在集裝箱內部進行操作,如更多的設備需要進駐數據中心,可以啟動新的集裝箱來予以應對。這樣能加快部署,同時運維管理更簡單,數據中心的布局也會更加合理。

高管理性
早前的管理需要奔波於各個服務器之間,後來KVM的流行使得我們操作服務器只需要面對一套輸入、輸出設備,但是這只能算是資源的統一和優化,並沒有形成管理的統一。
在現代數據中心中,不管是物理的平臺、虛擬的平臺、同構的平臺、異構的平臺不再是單點運維而是將所有的平臺整合到一起,通過統一的平臺對資源池進行規劃和管理。當所有的資源得到高效組織以後,應用和服務的管理開始發生“質”的變化,以往應用獨占資源的模式被打破,在數據中心中資源的開始實現自動化,奉行按需動態伸縮原則,托管的資源超過了設置的系統閾值,平臺自動增加資源,反之則較少;在海量數據方面,管理平臺將所有的資源虛擬、池化,采用高容錯、高並發I/O等機制,面對PB級數據存儲也能靈活面對。
物理、虛擬的統一管理、自動化、按需動態伸縮、海量的非結構化數據、多租戶架構的管理都是現代數據中心高管理性的體現。在未來,隨著雲技術的深入發展和應用,數據中心的管理會更加統一,資源利用效率也會大幅提升,而管理的易用性和便捷性也會更加人性。

高可用性
《ANSI/TIA-942》標準規定Tier IV級數據中心的可用性為99.995%,也就是說計劃性的維護和隱匿的非計劃維護造成的停機時間不超過10分鐘。這在傳統的機房環境下是不可以想象的,但是對於高可用性,沒有人有“恐高”心理,可用性能達到100%更是每一位IT管理者希望看到的。
然而,沒有人,也沒有設備能保證可用性能達到如此高度,我們只有盡可能地提高這一指標,供電系統建設冗余的、多路的方案,並輔以第三方的發電系統保證電力資源不會中斷,內部環境可以采用多種冷卻技術,消防方案部署氣體滅火系統,同時整個數據中心都在嚴密的監視之下,設備的安全有了良好的保護。
在應用與服務方面,不管是服務器、存儲、網絡都以虛擬化的形式抽象出來,通過平臺將所有的資源整合到一起,以資源池的形式予以呈現。同時虛擬集群的高度應用,將所有的資源進行全面的整合,對物理故障域、預留容量、擴展單元整體考量,當單個節點出現問題時,平臺會將這個節點虛擬遷移,保證業務流程不會中斷,並且這個過程都是依靠平臺自動完成,所以說數據中心在應用層面的可用性要遠遠高於傳統的機房。
在數據中心內最不受控的就是自然環境,這也是數據中心不敢宣稱100%高可用性的一個因素。然而隨著技術的發展,公有雲、私有雲、混合雲的發展,未來企業管轄內所有的數據中心都會關聯到一起,屆時雲數據中心的高端應用會讓可用性有更深層次的提高,6個9(99.9999%)、7個9(99.99999%)的可用性指標相信也不再是夢想。

高安全性
安全涉及領域很多,關鍵基礎架構的安全、服務器的物理安全、虛擬系統的安全、網絡的安全、通信的安全、數據的安全……
這些安全需求或許是通用安全性方面、信息保密性需求,也或許是服務保障性需求,數據中心需要在安全防護方面做很多功課。
對數據中心的全面監控保證了物理方面的安全,一旦發生火災等異常危險可以迅速、自動地采取氣體滅火行為。在授權方面,數據中心幾乎在所有的環節都有相應的權限分配,從進出數據中心的門禁系統、各設備的操作,到虛擬服務、業務流程的分配和使用,到網絡虛擬連接、虛擬交換、再到存儲的資源調用,甚至電源的開關都有非常詳細的權限指派,非授權人員在數據中心內無法執行任何操作,更談不到破壞了。在應用層面,面對病毒、黑客的潛在威脅,數據中心防火墻、網絡版殺毒軟件、WSUS、安全策略都在加固安全防護措施。隨著雲技術的發展,SCCM的應用將會使整體的漏洞修補、程序升級變得更加智能,不管是物理環境還是虛擬環境。最後,在審計方面,數據中心的強大日誌可以找尋定位到任何不安全的行為,並作出應對。
數據中心的設備至關重要,企業戰略向信息化方向發展必須全面提升數據中心在硬件、軟件、數據、環境等層面的安全性。

高可靠性
數據丟失導致的最終後果會是什麽?
美國得克薩斯州大學的統計結果顯示,只有6%的企業在數據丟失後繼續存活,43%的企業徹底關門,另外51%的企業在兩年之內消失殆盡。
2001年9月11日,美國世貿中心雙子大廈轟然倒塌的場景歷歷在目,災難發生前,世貿大廈中的企業約有350家,事故發生一年後,依然在運作的企業只有150家,其他200余家企業因為關鍵數據丟失,永遠留在了歷史的記憶中。
數據的傳輸與保存要絕對的可靠,相對於傳統的機房環境,數據中心已經發生出了很多變化,設備與環境的整體安全提升也使數據的可靠性大大增強,然而數據的高可靠性還需要更多方面的體現,數據中心會有一套全面的備份和恢復工具,可以對宿主主機、虛擬主機、運行的數據庫進行在線或者離線的備份和還原操作;可以對系統或鏡像進行快照,並在危險情形出現時進行回滾操作。中小企業可以將服務、應用或者數據交付到公有雲,公有雲平臺會對數據進行跨地域存儲,保證數據的絕對可靠,大型或者超大型企業可以在多個城市建立數據中心,再通過私有雲將所有的數據中心進行邏輯的聯系,所有的關鍵數據可以實現異地存儲和備份,即便發生不可抗力的自然災害,也可以通過其他數據中心的數據回滾迅速恢復。
高可靠性為數據中心提供了持續性的數據保護,對於內部或者外部的災難都可以從容應對。

綠色節能
全球氣候變暖是個不爭的事實,國際、國家、企業都將綠色、低碳、節能作為首要實現的目標,數據中心的眾多硬件設備已經開始走向綠色路線,從服務層面和應用層面,很多傳統的IT角色都在轉變,平臺化的管理讓我們規劃出更多的可用資源,也潛移默化地減少設備投入,這是好的開始,但是這些算是技術層面的綠色節能手段。在意識層面,同樣需要做著更加深入的努力。
舉個例子,數據中心最合宜的溫度是多少?18℃,22℃,26℃?將中央空調系統統一設定為20℃低溫,這樣似乎便於管理,但是長期的低溫運行會浪費大量的電力資源。
事實上,數據中心的溫度範圍有合理的區間。當步入一個超大型的數據中心時,你會感覺到溫度的不同,在這裏不會為網絡配線機櫃配置過多的冷卻資源,對於刀片服務器、機架服務器我們會感覺它們身處的機櫃溫度更低,同時溫度的導流和利用更加充分。在這樣的數據中心內,會感覺到溫度的差異,但是各個環境的溫差並不會顯得突兀。
這就是資源的合理利用,只要溫度控制在夏季22±4℃、冬季18±4℃,濕度控制在40%~65%,電子設備的工作狀態就會處於最佳模式,可以將溫度予以分散,似乎這樣的溫度設計更合理,延長了設備的使用壽命,也使冷卻資源消耗的電量大大下降。
這只是綠色節能的一個簡單縮影,在目前以及未來的數據中心環境,成本的壓力始終伴隨著數據中心的生命周期,我們需要長期的應對措施。

降低成本
對於滿腦子數據、公式、指標的CTO來說,如果只用嘴和他講虛擬化的優勢、服務的成本、資源的最優利用……勸你還是盡早放棄吧!企業高層會考慮數據中心的運營狀況,但是更多的是希望以數字化的報表來實現。
服務器虛擬化項目將早前的1000臺服務器抽象為50臺服務器,成本的優勢一下呈現出來,同時還會傳導到其他支撐環節,電力系統的要求會大大減少,數據中心的溫度也會呈現著大幅縮減的態勢,這兩者的耗電量會直線下降,年節約60%甚至更多。
虛擬化存儲將所有的資源予以整合,容量和用戶體驗得到了保證,同時避免了周期性的存儲硬件設備購置成本,根據設備購置頻率、存儲容量很容易計算出虛擬化帶來的巨大收益。
通過雲計算平臺還可以做得更為精確。
按需服務,可以計算出哪些服務占用了大量的服務資源?這些資源占用是周期性的還是臨時性的?IT管理人員是否可以預判到這些狀況的發生?如果將這些服務進行細化,就可以進行針對性的按需服務,當資源需求較低時,可以通過策略或者指令將服務的負載進一步降低,成本的節省會很可觀。
而對於企業內部門、用戶服務評測,可以評估部門層和用戶層的資源消耗程度,這樣就可以計算出“誰”才是真正的成本中心,緊接著進行詳細定位並有針對性地解決,這不僅能降低資源的使用程度,也會使SLA大大提升。
降低成本,是未來數據中心將要持續提出並改進的環節,通過上述模式可以很清楚地計算出成本的分配狀況,並為進一步提升信息戰略提供可靠的基礎數據。

延伸阅读

    评论