400-650-1086
首頁(yè) > 最新資訊 > 企業(yè)新聞 > 正文

數據中心機房動(dòng)力環(huán)境監控系統設計探討

admin 2023-06-12 20:58:06 0

摘 要:結合銀行數據中心建設項目,設計銀行數據中心機房動(dòng)力環(huán)境監控系統,分析銀行數據中心機房監控對象、搭建系統監控架構,給出監控實(shí)現方法,*后針對運行一段時(shí)間出現的問(wèn)題,提出優(yōu)化措施和建議,對同類(lèi)工程建設具有一定借鑒意義。

關(guān)鍵詞:數據中心;動(dòng)環(huán)監控;系統架構;網(wǎng)絡(luò )拓撲

0引言

銀行數據中心機房的供配電和精密空調等基礎設施多,而設備維護人力資源少,因此增加了基礎設施運維人員工作強度和難度。為及時(shí)發(fā)現設備故障并處理,本文設計了動(dòng)力環(huán)境監控系統,并針對運行中出現的主要問(wèn)題給出優(yōu)化措施。

1系統

監控對象銀行數據中心機房動(dòng)力環(huán)境監控系統(以下簡(jiǎn)稱(chēng)為動(dòng)環(huán)監控系統)的監控對象可分為三大類(lèi):第一是對設備動(dòng)力系統實(shí)時(shí)工作狀態(tài)進(jìn)行監控,如供配電系統開(kāi)關(guān)狀態(tài)、UPS和柴油發(fā)電機等設備的運轉參數和狀態(tài)等;第二是對機房?jì)冗\行環(huán)境進(jìn)行監測與控制,如溫度、濕度、漏水、氫氣濃度及消防等;第三是對人員設備進(jìn)出進(jìn)行監控,如門(mén)禁、攝像頭、防入侵等安全類(lèi)設備。而機柜內服務(wù)器、交換機、加密機等安全或網(wǎng)絡(luò )類(lèi)硬件設備運行狀態(tài)并未納入,不在本文探討范圍。

2系統架構設計

2.1設計原則

銀行機房動(dòng)環(huán)監控系統設計應遵循“集中化、一體化、智能化”的設計模式,采用高標準的監控系統設計原則,實(shí)現主動(dòng)、高效、流程化的監控管理。

(1)穩定性。動(dòng)環(huán)監控系統作為機房基礎設施“管家”,要求24h不間斷提供服務(wù),這不僅依賴(lài)動(dòng)環(huán)監控設備供電的穩定性,還依靠網(wǎng)絡(luò )通信的可靠性。

(2)安全性。動(dòng)環(huán)監控系統信號采集回路應具備良好的保護機制,不會(huì )因采集回路故障而造成被監控基礎設備誤動(dòng)作或故障,且系統應具備自檢功能,在基礎設施故障時(shí)能及時(shí)通過(guò)電話(huà)或短信等方式告知運維人員設備故障部位、故障性質(zhì)等。

(3)開(kāi)放性。動(dòng)環(huán)監控系統應符合開(kāi)放式設計標準,預留多種對外接口和兼容MODBUS-TCP、OPC、OD-BC、BACNET等標準通信協(xié)議,以實(shí)現與第三方廠(chǎng)商設備數據的傳輸與交換。

(4)可擴展性。動(dòng)環(huán)監控系統應可擴容及易維護,以適應數據中心機房的擴容、監控設備增加等變動(dòng)情形。

2.2系統架構

動(dòng)環(huán)監控系統采用計算機網(wǎng)絡(luò )、現代通信技術(shù)和控制技術(shù),對機房動(dòng)力設備及環(huán)境等進(jìn)行實(shí)時(shí)監控,實(shí)現無(wú)人值守機房的現代化管理。硬件上采用三層架構:底層為現場(chǎng)設備層,由被監控設備、I/O采集模塊等構成;中間層為數據采集處理層,由各串口服務(wù)器、動(dòng)環(huán)服務(wù)器、交換機等構成;頂層為數據應用層,由監控平臺或客戶(hù)端等終端構成。軟件上采用B/S結構,在機房中通過(guò)安裝各種傳感器及數據采集設備進(jìn)行底層數據采集,將所有子系統集成在統一的用戶(hù)界面下,對各個(gè)子系統進(jìn)行統一監視、控制和協(xié)調,從而構成統一的協(xié)同工作的整體。系統架構設計如圖1所示。

圖1動(dòng)環(huán)監控系統架構設計

3系統實(shí)現

3.1工程概況

數據中心主機房設置在6F,按功能細分為服務(wù)器機房一、二、三,網(wǎng)絡(luò )機房,配電間A、B;配電間重要斷路器或開(kāi)關(guān)、電量?jì)x、UPS及防雷,主機房?jì)刃嘛L(fēng)機、精密空調及漏水檢測、機柜PDU、溫濕度、防入侵(紅外線(xiàn)檢測)需納入動(dòng)環(huán)監控系統。UPS蓄電池室設置在-2F,柴油發(fā)電機間設置在-1F,三電源切換室設置在1F,運維室設置在7F,消防氣瓶間設置在8F。動(dòng)環(huán)監控系統的監控對象見(jiàn)表1。

表1監控對象

3.2硬件構成

動(dòng)環(huán)監控系統由2臺服務(wù)器(雙機熱備)、2臺客戶(hù)端PC機、監控大屏、核心交換機(A、B網(wǎng))、視頻匯聚交換機、門(mén)禁接入交換機、采集箱及串口服務(wù)器等構成。

3.2.1數據采集層核心設備

采集箱負責開(kāi)關(guān)量、溫濕度等原始數據的采集,是整個(gè)監控系統的核心,采用深圳計通機架式,大小為2U,可安裝在機柜內,箱內采集模塊通過(guò)端子排與被監控設備相連。串口服務(wù)器采用計通OAO-9000E嵌入式智能管理單元,該設備集數據采集、解析、存儲告警于一體,具備正確故障定位能力,可滿(mǎn)足不同廠(chǎng)家設備數據信號的接入與“翻譯”。

3.2.2現場(chǎng)設備層

現場(chǎng)設備層的設備分為需接協(xié)議轉換器設備、需提供通信協(xié)議設備、模擬量直集模塊和開(kāi)關(guān)量直集模塊四類(lèi)。

(1)需接協(xié)議轉換器(串口服務(wù)器)的設備包括精密空調、漏水繩、機柜PDU、電量?jì)x、UPS電源、蓄電池、柴油發(fā)電機。這些設備需相應廠(chǎng)家提供通信接口及其開(kāi)放的通信協(xié)議,以便對各設備運行參數或狀態(tài)進(jìn)行監測。

(2)需提供通信協(xié)議的設備包括視頻監控和門(mén)禁子系統。這些設備需相應的廠(chǎng)家提供通信協(xié)議,由動(dòng)環(huán)監控系統進(jìn)行集成和管理,能實(shí)現在動(dòng)環(huán)監控端點(diǎn)擊任意攝像頭調出相應攝像頭的實(shí)時(shí)監控畫(huà)面和實(shí)現對任意門(mén)的開(kāi)關(guān)控制。

(3)模擬量直集模塊。

①溫濕度監測:通過(guò)在機房?jì)鹊闹匾獏^域、冷熱通道和機柜內部安裝溫濕度傳感器,實(shí)時(shí)采集溫濕度的變化情況和熱力分布情況。

②氫氣監測:通過(guò)在電池間安裝氫氣采集模塊,可實(shí)時(shí)檢測PPM值是否超標,及時(shí)發(fā)現氫氣泄漏的電池隱患;當氫氣PPM達到設定的閾值時(shí),系統發(fā)出報警。

(4)開(kāi)關(guān)量直集模塊。

①重要開(kāi)關(guān)監測:通過(guò)監測配電柜內重要斷路器的輔助觸點(diǎn)狀態(tài),判斷開(kāi)關(guān)的通斷狀態(tài);當監測的開(kāi)關(guān)狀態(tài)與設定默認狀態(tài)不一致時(shí),監控主系統發(fā)出報警。

②防雷監測:通過(guò)監測防雷器的遙信觸點(diǎn),實(shí)時(shí)監測防雷器狀態(tài);當監測的防雷器狀態(tài)與設定默認狀態(tài)不一致時(shí),監控主系統發(fā)出報警。

③新風(fēng)排煙監控:通過(guò)在新風(fēng)和排煙管道中安裝壓差開(kāi)關(guān)檢測壓差信號,監測機房?jì)刃嘛L(fēng)機和排煙機的運行狀態(tài),可遠程控制新風(fēng)機的啟停。

④防入侵監測:通過(guò)在機房?jì)劝惭b紅外探頭以監測機房?jì)热藛T移動(dòng)狀態(tài);當紅外探測器的狀態(tài)異常時(shí),系統發(fā)出報警。

⑤消防監測:通過(guò)采集消防控制主機報警輸出點(diǎn)的信號,實(shí)時(shí)監測機房?jì)雀鞣謪^的消防狀態(tài);一旦發(fā)生報警,系統就自動(dòng)切換到相應的監控界面,火警狀態(tài)圖標變紅且閃爍顯示,同時(shí)產(chǎn)生報警事件并記錄存儲。

3.2.3供電與組網(wǎng)動(dòng)環(huán)監控系統硬件

設備的供電需雙路UPS電源,以確保供電可靠性,滿(mǎn)足24h不間斷提供服務(wù)的要求;而且重要的硬件設備要求主從配置,如動(dòng)環(huán)服務(wù)器具備雙機熱備功能,利用“雙監控系統+雙數據庫”模式,保證系統的不間斷運行。

動(dòng)環(huán)監控系統硬件設備的組網(wǎng)要求A、B雙網(wǎng)運行設備逐級匯接模式,網(wǎng)絡(luò )設備由POE交換機、接入交換機、匯聚交換機、核心交換機組成。POE交換機負責視頻攝像機的供電和數據傳輸;接入交換機使用二層有VLAN功能的交換機,負責采集單元中數據收斂;匯聚交換機使用三層交換機,用于匯聚POE交換機數據,避免二層網(wǎng)絡(luò )過(guò)大導致環(huán)路,也減輕了核心交換機的數據負擔。

動(dòng)環(huán)監控系統的網(wǎng)絡(luò )拓撲結構如圖2所示

圖2網(wǎng)絡(luò )拓撲結構圖

3.3軟件平臺

動(dòng)力環(huán)境集中監控平臺軟件采用B/S結構,通過(guò)在機房中安裝各種傳感器及數據采集設備進(jìn)行底層數據采集,外廠(chǎng)家設備需提供通信接口及其開(kāi)放的通信協(xié)議,進(jìn)行數據“翻譯”處理,通過(guò)機房監控平臺集中監控,全中文、圖形化;界面結構層次清晰,實(shí)時(shí)反映數據狀態(tài)。集中監控平臺需要能運 行于中文Windows操作系統。動(dòng)力環(huán)境集中監控平臺軟件采用模塊化設計,可劃分為采集層、處理層、管理層及展示層,如圖3所示。其中,個(gè)人工作平臺能提供動(dòng)環(huán)監控主界面、告警事件列表、待辦事項、告警等級統計、PUE實(shí)時(shí)曲線(xiàn)、基礎設施分類(lèi)餅狀圖等可自由選擇的個(gè)性化定制界面。報表管理可根據機房管理原有報表格式生成詳細的數據記錄報表和數據分析報表,存儲格式為Excel或PDF;數據存儲時(shí)間需長(cháng)于1年,且具有防篡改功能。軟件交互界面中,動(dòng)環(huán)監控模塊可直觀(guān)看到各個(gè)機房實(shí)時(shí)運行狀態(tài),設置機房名稱(chēng)、設備圖標等超鏈接可直達各子界面,通過(guò)溫濕度監測、門(mén)禁、視頻監控、溫度場(chǎng)、漏水監測、紅外監測、消防監測等按鈕可直達各分畫(huà)面,并提供基于電子地圖、實(shí)時(shí)曲線(xiàn)、餅狀圖、折線(xiàn)圖、直方圖等多形式數據展現方式,便于運維人員分析設備歷史運行趨勢,以判斷設備狀況。

圖3動(dòng)力環(huán)境集中監控平臺軟件架構圖

系統告警采取短信、電話(huà)、現場(chǎng)語(yǔ)音三種報警結合的方式,報警等級分為緊急、重要、一般三個(gè)層次,不同級別的報警采用不同報警方式實(shí)現報警信息的發(fā)送。無(wú)論系統處于任何畫(huà)面,都可自動(dòng)提示告警,顯示告警信息。當一個(gè)報警狀態(tài)解除時(shí),系統可自動(dòng)發(fā)送相應的恢復短信,以便機房管理人員隨時(shí)掌握相關(guān)動(dòng)態(tài)。

4系統運行中的問(wèn)題及優(yōu)化措施

4.1常見(jiàn)問(wèn)題

動(dòng)環(huán)監控系統運行以來(lái),出現過(guò)監控平臺數據不刷新,監控平臺電腦“假死”,采集數據不準確,系統告警漏報、誤報、頻發(fā)(告警信號抖動(dòng))及延遲報警問(wèn)題。

(1)監控平臺數據不刷新。這種情況在實(shí)際運維工作中*常見(jiàn),整個(gè)監控平臺軟件數據不刷新或系統中某設備數據不刷新,導致運維人員無(wú)法收到告警信息。

(2)采集數據不準確。這種情況主要體現在監控畫(huà)面顯示的數據與現場(chǎng)設備實(shí)際運行數據不符,若畫(huà)面顯示的數據超過(guò)告警的閾值就有可能造成系統誤告警或不告警,影響設備的運行安全。如智能儀表部分測點(diǎn)值與系統顯示值不一致或單位不同,將導致該設備失去監控。在冷熱通道溫度檢測過(guò)程中,監控軟件顯示的數值超過(guò)告警上限閾值引發(fā)告警,而運維人員現場(chǎng)檢查后并未超限,造成人力資源的浪費。

(3)實(shí)時(shí)告警問(wèn)題。動(dòng)環(huán)監控系統告警漏報、誤報、頻發(fā)、延遲報警及告警信號抖動(dòng)等問(wèn)題是困擾數據中心運維工作人員的嚴重問(wèn)題。數據中心運維值班人員7×24h應急值班,告警信息誤報、頻發(fā)將給人員造成很?chē)乐氐纳眢w傷害;而告警信息的漏報與延遲將導致設備出現故障時(shí)未能及時(shí)通知從而導致更嚴重的機房事故。

①告警漏報:告警漏報主要原因是告警級別設置過(guò)低或設備通信中斷或設備信息采集故障等導致重要告警信息缺失,未能及時(shí)上報運維人員,從而錯失重要告警信息,將導致嚴重后果。

②告警誤報:告警誤報是衡量動(dòng)環(huán)監控系統可用性的重要指標,采集裝置受到電磁干擾或周?chē)h(huán)境改變、協(xié)議解析有誤、采集裝置故障、儀表故障、板卡端口故障等均會(huì )引起誤報,如精密空調四周部署的漏水繩因灰塵或沙土等導致電阻增大從而引起誤報。

③告警頻發(fā):告警頻發(fā)類(lèi)似于“信息轟炸”,可分為兩種情況:一是同一告警信息頻繁多次報送給運維人員,原因是當某一測點(diǎn)觸發(fā)告警時(shí),采集值在告警閾值附近來(lái)回波動(dòng);二是同一事件觸發(fā)機房多個(gè)動(dòng)力設備同時(shí)告警,如機房停電或閃停后恢復,各相應重要開(kāi)關(guān)、電量?jì)x、UPS、機柜PDU等多設備引起的“電話(huà)短信轟炸”。④告警延遲:告警信息是否及時(shí)上報給運維人員是考驗監控系統是否合格的重要指標之一,而上報時(shí)間應設置為用戶(hù)可選項,如電力閃斷立即恢復的情形,可設置一定延時(shí);而重要信息應能在15s內完成上報。

4.2優(yōu)化措施

(1)監控平臺數據不刷新問(wèn)題的解決。運維人員需熟知動(dòng)環(huán)監控系統架構和網(wǎng)絡(luò )拓撲,從單點(diǎn)設備故障到網(wǎng)絡(luò )故障進(jìn)行排除,對重要設備必要時(shí)可優(yōu)化系統結構或網(wǎng)絡(luò )拓撲,對采集設備或裝置進(jìn)行冗余備份,或對重要監控對象通信采用A、B雙網(wǎng)通信。

(2)采集數據準確性問(wèn)題的解決。檢查智能儀表裝置或第三方設備的通信協(xié)議是否準確,與原廠(chǎng)家技術(shù)支持核實(shí)設備協(xié)議文本正確性,如更換智能儀表未核對通信協(xié)議,將導致數據不準確或無(wú)法采集。檢查通信故障,首先檢查物理連接是否存在問(wèn)題,然后對通信配置進(jìn)行檢查,重點(diǎn)檢查波特率、校驗位、串口的設置等是否存在問(wèn)題。檢查采集裝置或采集箱等設備、溫濕度探測器等硬件自身是否存在故障,排除設備硬件故障導致數據采集不準確的問(wèn)題。

(3)實(shí)時(shí)告警問(wèn)題的優(yōu)化。首先嚴格控制智能設備串接數量,避免串接設備數量過(guò)多引起數據上傳緩慢,進(jìn)而導致告警延遲。合理配置FSU掃描時(shí)間,通過(guò)調整動(dòng)環(huán)設備掃描周期來(lái)縮短采集裝置對各個(gè)測點(diǎn)的問(wèn)詢(xún)時(shí)間,以提高采集速度。其次合理選擇設備測點(diǎn),對重要測點(diǎn)進(jìn)行合理選擇和優(yōu)化,避免掃描過(guò)多的測點(diǎn)造成采集器負擔過(guò)重,進(jìn)而影響采集效率。另外,運維人員應避免非重要數據的掃描占用過(guò)多資源,引起采集過(guò)慢。再者通過(guò)軟件手段控制告警頻發(fā)和非合理數據引發(fā)的告警,可增加告警回差屏蔽功能,數據采集值超出合理范圍的,通過(guò)設置有效的閾值上下限,屏蔽此部分數據,消除誤告警。電磁干擾在傳輸過(guò)程中產(chǎn)生的誤告警,除在軟件端進(jìn)行有效門(mén)限屏蔽外,還可在傳輸線(xiàn)路上套裝抗干擾磁環(huán)以減少干擾。*后采用人工智能等先進(jìn)手段增加告警邏輯關(guān)系分析和對告警信息進(jìn)行合理分類(lèi)。如增加告警溯源功能,劃分主次告警,確定告警產(chǎn)生設備的主從關(guān)系,進(jìn)而對告警信息進(jìn)行有效優(yōu)化,以減少告警“信息轟炸”,同時(shí)不漏掉重要告警信息。

5動(dòng)環(huán)監控系統解決方案

通過(guò)數據中心動(dòng)環(huán)監控系統,實(shí)現了對數據中心的門(mén)禁狀態(tài)、水浸狀態(tài),煙霧狀態(tài),視頻狀態(tài),環(huán)境狀態(tài),高低壓配電狀態(tài),設備運行狀態(tài)進(jìn)行實(shí)時(shí)監測,并進(jìn)行實(shí)時(shí)報警,保障數據中心正常運行,避免運行環(huán)境的失控導致配電設備運行故障,保證維護人員安全,延長(cháng)設備使用壽命,減少配電室粗放式管理導致成本過(guò)高。同時(shí)實(shí)現動(dòng)環(huán)監控并對各用能耗能進(jìn)行能效分析,幫助用戶(hù)實(shí)現用能效率的優(yōu)化。

5.1系統功能

(1)展示當前數據中心總能耗,IT能耗,空調能耗,及其他能耗并且計算出當前數據中心實(shí)時(shí)PUE值,通過(guò)儀表盤(pán)形式直觀(guān)展示。

(2)選擇查看數據中心的中低壓配電系統主接線(xiàn)圖,并在一次圖顯示配電系統當前遙測、遙信數據和狀態(tài)。實(shí)時(shí)監測各配電柜的電壓、電流等電力參數,變電站的溫濕度、煙感、水浸、門(mén)禁等環(huán)境情況。

(3)電氣接點(diǎn)溫度實(shí)時(shí)監測,斷路器觸頭、觸臂、母排和線(xiàn)纜連接等位置安裝無(wú)線(xiàn)測溫傳感器監測接點(diǎn)溫度,便于提前發(fā)現溫度異常導致的事故。

(4)監測各變壓器各項參數,包括負載率、頻率、功率因數、三相不平衡度等,并且顯示歷時(shí)曲線(xiàn)圖,數據實(shí)時(shí)變化。幫助用戶(hù)直

(5)電能質(zhì)量在線(xiàn)監測,可以監測電流和電壓諧波畸變率、電壓暫升暫降暫中斷等暫態(tài)事件記錄、ITIC容忍曲線(xiàn)等

(6)系統采集UPS輸入、輸出端和旁路三相電壓、電流、有功功率、功率因數頻率,同時(shí)監測UPS溫度、蓄電池電壓、當前負載下的剩余時(shí)間等數據。

(7)展示單體電池電壓、內阻和溫度,預測電池帶載時(shí)剩余時(shí)間,每節電池數據均可以設置異常報警,及時(shí)發(fā)現蓄電池異常。

(8)展示精密配電柜內進(jìn)線(xiàn)和饋線(xiàn)回路電氣參數,包括電流電壓功率電能以及開(kāi)關(guān)狀態(tài),并可以對數據進(jìn)行報警設置和分級,數據取自精密配電柜測量模塊。

(9)展示智能小母線(xiàn)的始端箱和插接箱電氣參數,包括電流電壓、開(kāi)關(guān)狀態(tài)、插接點(diǎn)溫度,并對數據進(jìn)行報警設置和分級。

(10)通過(guò)平面圖顯示數據中心能源分布,設備分布情況,并顯示設備能耗數據,點(diǎn)擊平面圖上設備可以進(jìn)入具體設備監控界面。

(11)實(shí)時(shí)顯示當前數據中心PUE值以及歷史PUE曲線(xiàn)。并且顯示各分項用能的用能情況及用能排行。監測各變壓器運行及負載情況,給出本月變壓器輸出電能排行。

(12)顯示電能消耗日/月/年報表,并可對具體回路選擇曲線(xiàn)圖、餅圖進(jìn)行展示。對數據中心用電數據進(jìn)行同比、環(huán)比分析比較,查看用電趨勢。

(13)監測精密空調的回風(fēng)溫濕度,出回水溫度,并可以設定精密空調的溫濕度,達到更好的控制效果。

(14)監測數據中心溫濕度、開(kāi)關(guān)門(mén)、水浸、煙霧、噪聲、氣體濃度狀態(tài)等參數。曲線(xiàn)圖直觀(guān)明了,同時(shí)支持歷史數據查詢(xún)

(15)通過(guò)列表顯示各類(lèi)報警事件數量,通過(guò)柱狀圖顯示逐日報警數量,提供報警總數以及增長(cháng)趨勢。

維管理功能,可針對數據中心各主要設備進(jìn)行巡檢派工,消缺,搶修等維護工作。

5.2 動(dòng)環(huán)監控系統選型方案

6結語(yǔ)

動(dòng)環(huán)監控系統在銀行數據中心基礎設施設備的運行維護中發(fā)揮重要作用,在一定程度上扮演了運維人員“眼耳鼻”的角色。動(dòng)環(huán)監控系統的正常運行在于7×24h不間斷服務(wù)和重要告警信息能及時(shí)通知相關(guān)運維人員。而動(dòng)環(huán)監控系統穩定可靠正確運行的關(guān)鍵在于系統架構、供電及組網(wǎng)的設計。在運維過(guò)程中,系統難免會(huì )出現一些問(wèn)題,需不斷總結經(jīng)驗、梳理出問(wèn)題并進(jìn)行優(yōu)化改進(jìn)。本文基于銀行數據中心動(dòng)環(huán)監控系統建設實(shí)際出發(fā),對該系統進(jìn)行設計并實(shí)現,同時(shí)對運行出現的問(wèn)題進(jìn)行合理優(yōu)化,結果證明該策略的可行性。

售前咨詢(xún)

專(zhuān)線(xiàn):劉剛 13911133352

E-mail:112417434@qq.com

北京金恒智能系統工程技術(shù)有限責任公司 版權所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.

法律聲明:未經(jīng)許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利!

電話(huà):86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網(wǎng)站XML

智慧機房

在線(xiàn)體驗

CREATE·機房監控 體驗端  用戶(hù)名:Admin    密碼:12345 點(diǎn)擊體驗
在線(xiàn)咨詢(xún) 電話(huà)咨詢(xún)