一項新的業內研究指出,數據中心停機事件仍在發生,盡管停機頻率正在下降。
Uptime Institute 發布了第七份年度停機分析報告,顯示盡管整體停機頻率持續下降,但與電源相關的問題依然是數據中心運營商主要擔憂的問題,而當故障發生時,成本卻不斷上升。
2025 年數據中心停機分析報告與該機構 2024 年報告中的許多核心主題相呼應,后者也指出,隨著多年整體趨勢的改善,停機事件正在減少。
該研究結合了多種數據來源,包括 Uptime Institute 全球調查、機構成員和合作伙伴提供的信息,以及通過新聞和社交媒體公開報道的事件數據庫。
2025 年報告的主要發現包括: 53% 的運營商報告稱過去三年內發生過停機事件,而這一比例在 2020 年為 78%。 2024 年報告的停機事件中,只有 9% 被歸類為嚴重或極嚴重,這是 Uptime Institute 迄今記錄的最低水平。 在 54% 的重大停機案例中,故障原因主要歸結于電源問題。 未能嚴格遵守流程的員工比例較 2024 年上升了 10 個百分點。 54% 的受訪者表示,他們最近一次重大停機事件造成的損失超過 100,000 美元,其中 20% 的受訪者報告損失超過 1,000,000 美元。 80% 的運營商認為,更好的管理和流程本可以防止最近發生的停機事故。
Uptime Institute 研究執行董事 Andy Lawrence 在一場詳細介紹報告發現的網絡研討會上表示:“大多數數據中心運營商的停機事件非常罕見,但當然,一旦發生,其后果往往相當嚴重。”
在日益復雜的環境中停機頻率持續下降
報告顯示,盡管基礎設施日益復雜,整個行業在數據中心停機預防方面都在不斷改善,這延續了連續四年下降的事故趨勢。
Lawrence 表示:“相較于數字基礎設施的快速增長,停機事件正變得越來越少且不再嚴重。這一趨勢已經持續了數年,彰顯了業界在風險管理和可靠性方面的進步。”
盡管取得了一定進展,但新的風險正在出現,這可能會對行業可靠性改善提出挑戰。Uptime Institute 指出,其中一個新風險就是氣候變化。近年來,與氣候變化影響相關的停機事件呈現上升趨勢,例如極高溫度或由于火災或煙霧導致的停電。
電源問題主導停機原因
與電源相關的故障仍然是數據中心運營商主要關注的問題,其中不間斷電源 ( UPS ) 的故障尤為突出。
Uptime Institute 首席技術官 Chris Brown 解釋道:“數據中心中的每一臺設備,無論是設施設備還是 IT 設備,都需要電源來運行,而電源問題往往是無情的。”
Brown 指出,UPS 硬件是應對來自電網和系統層面異常電源問題的最后防線。他預計,隨著 AI 技術對電力需求的增加,電源問題將會繼續成為數據中心運營商日益嚴峻的挑戰。
Brown 說:“隨著這些密度的提高,以及數據中心整體電力需求的增加,系統將承受更大的壓力,這將提高數據中心發生事故的可能性。”
人為錯誤:可預防的問題
雖然應對電源故障并不容易,但數據中心停機的另一個常見原因——人為錯誤,應該更容易改進。
報告反復發現,人為錯誤占所有停機事件的三分之二至四分之三。其中一個顯著趨勢是數據中心員工未能遵守既定流程的比例有所上升,Brown 將其歸因于行業的快速增長和培訓不足。
Brown 解釋道:“我們看到人員在為數據中心制定流程和程序,并在數據中心上線之前為經驗非常有限的人提供基礎培訓方面遇到了困難。”
Uptime Institute 希望數據中心運營商在未來幾年能夠通過改進培訓、流程、程序和溝通,從根本上解決導致人為錯誤的問題,從而取得進步。
Lawrence 表示:“這些都是我們可以控制的,這或許是最簡單且成本最低的方法,可以減少停機事件發生的可能性。”