9 月 10 日上午,阿里云因新加坡可用區(qū) C 數(shù)據(jù)中心發(fā)生火災(zāi),導(dǎo)致主要科技公司服務(wù)中斷,火災(zāi)原因已確定為鋰電池爆炸。據(jù)外媒報道,10 日早上約 8 點發(fā)生的機房火災(zāi),截至 11 日下午 8 點,已持續(xù) 36 小時,仍未完全撲滅。
根據(jù)阿里云發(fā)布的官方聲明,關(guān)鍵云產(chǎn)品受到影響,包括云數(shù)據(jù)庫 Redis、MongoDB、RDS MySQL,對象存儲 OSS,表存儲 OTS 以及云原生大數(shù)據(jù)計算服務(wù) MaxCompute。阿里云今日凌晨更新了相關(guān)進展,稱大部分受網(wǎng)絡(luò)影響的云產(chǎn)品已恢復(fù)正常運行,但仍有部分業(yè)務(wù)因機房斷電需等待物理條件恢復(fù)。
“昨晚 20:23,消防部門仍在現(xiàn)場處理大樓的安全風(fēng)險,運維工程師正在等待進入機房的許可。如果現(xiàn)場評估顯示不具備原地恢復(fù)的條件,應(yīng)急小組將執(zhí)行服務(wù)器設(shè)備的遷移恢復(fù)方案。”
此次事件不僅影響了阿里云的正常服務(wù),還對托管在該機房的其他科技公司,如 Lazada 和字節(jié)跳動,造成了嚴重服務(wù)中斷。
在 Lazada 以及 TikTok Shop 等電商平臺上,賣家反饋無法通過平臺接口同步訂單信息;TikTok Shop 的用戶也透露,系統(tǒng)故障使得小黃車功能無法正常使用。Lazada 和 TikTok Shop 方面已經(jīng)對受影響的訂單進行了延期處理。
在社交平臺上,報告異常的也不少,部分 TikTok 用戶也反饋,新加坡發(fā)布的視頻無法獲得正常流量。
該數(shù)據(jù)中心不僅托管了阿里云和字節(jié)的服務(wù)器,還包括一些其他跨國公司的服務(wù)器。有用戶報告稱,Digital Ocean、IaaS 服務(wù) Coolify 以及 Cloudflare 出現(xiàn)了宕機或服務(wù)降級,似乎與此次火災(zāi)有關(guān)。
有意思的是,AWS 的銷售也趁此機會安利自家服務(wù):
1
機房火災(zāi)由鋰電池爆炸引發(fā),持續(xù)超 30 小時
據(jù)當(dāng)?shù)孛襟w報道,該數(shù)據(jù)中心屬于美國數(shù)據(jù)中心房地產(chǎn)投資信托 Digital Realty 名下。
火災(zāi)始于當(dāng)?shù)貢r間周二上午,有群眾在事發(fā)前聽到爆炸聲,隨后數(shù)據(jù)中心冒出滾滾濃煙,現(xiàn)場能聞到一股嗆鼻的燒焦味。鋰電池爆炸的威力巨大,瞬間引發(fā)了火災(zāi),并使得火勢迅速蔓延。
運營該處計算設(shè)施的 Digital Realty 公司發(fā)言人解釋稱,“2024 年 9 月 10 日上午 7:45,我們發(fā)現(xiàn) SIN11 數(shù)據(jù)中心觸發(fā)火災(zāi)警報。所有現(xiàn)場人員于 8:15 前安全撤離,事故未造成人員受傷。”
事故發(fā)生在數(shù)據(jù)中心一棟建筑的電池室內(nèi)。新加坡民防部隊(消防組織)發(fā)表公告稱,火患波及數(shù)據(jù)中心三樓閣樓內(nèi)的兩個電池房、兩個電源房和一個設(shè)備儲藏室。
根據(jù)報道來看,此次事件滅火的手段包括四個水槍、房內(nèi)灑水滅火系統(tǒng)、滅火機器人等。為確保火源不再復(fù)燃,消防人員也一直留守在數(shù)據(jù)中心外面,“需要通過降溫和澆濕措施來控制連鎖反應(yīng)”。
但截至 11 日晚,失火的數(shù)據(jù)中心仍有兩處冒著濃煙。
在火災(zāi)持續(xù)的 30 多個小時里,滅火工作面臨著諸多挑戰(zhàn)。一方面,鋰離子電池通常用于從智能手機到電動汽車的設(shè)備中,此類火災(zāi)因難以徹底撲滅而著稱。即使初期火焰被撲滅,鋰離子電池的內(nèi)部化學(xué)反應(yīng)仍會持續(xù)生成熱量并提供燃料,導(dǎo)致自燃復(fù)燃。另一方面,這類火災(zāi)會釋放有毒氣體,如氟化氫及其他有害物質(zhì),增加了對消防員的風(fēng)險,也使滅火過程更為復(fù)雜。此外,數(shù)據(jù)中心通常采用封閉式設(shè)計,通風(fēng)條件有限,不利于煙霧的排出,也給滅火工作帶來了困難。
業(yè)界對于用水消防抑制鋰電池火災(zāi)有所爭議,有觀點認為當(dāng)鋰電池起火時,水分可能導(dǎo)致電池短路,從而加劇火勢。此外,水與鋰電池的正負極材料和電解液發(fā)生劇烈反應(yīng),產(chǎn)生的氣體和熱量可能引發(fā)爆炸,進一步加重火災(zāi)。
相比之下,全氟己酮作為滅火劑表現(xiàn)出優(yōu)異的效果,能夠迅速撲滅電池外部的明火。它安全性較高,且對環(huán)境友好,噴發(fā)后能快速汽化,吸收大量熱量,隔絕空氣中的氧氣,從而實現(xiàn)窒息滅火。
9 月 11 日(昨天)晚 8 點,當(dāng)?shù)孛襟w報道稱,消防員仍在現(xiàn)場進行澆濕工作。
而大樓建筑結(jié)構(gòu)也受到些許損壞,作為預(yù)防措施,建設(shè)局將對建筑的三樓、三樓閣樓和四樓的一些區(qū)域發(fā)出危樓令(Dangerous Building Order)和封閉令(Closure Order)。
機房被水淹沒,阿里云業(yè)務(wù)受嚴重影響
受到這起火災(zāi)影響的企業(yè)則被告知須啟動災(zāi)難事態(tài)下的業(yè)務(wù)連續(xù)性計劃。
阿里云的狀態(tài)報告稱,該公司于周二 10:20(新加坡標(biāo)準(zhǔn)時間)檢測到新加坡區(qū)域 C 可用區(qū)發(fā)生異常,“導(dǎo)致部分云服務(wù)無法正常運行”。
后續(xù)發(fā)布的更新指出,“此次異常是由新加坡數(shù)據(jù)中心的鋰電池爆炸引發(fā),爆炸導(dǎo)致現(xiàn)場起火及溫度升高。”
作為中國云服務(wù)領(lǐng)域的頭部廠商之一,阿里云聲稱其災(zāi)難恢復(fù)與故障轉(zhuǎn)移程序已按預(yù)期運行,意味著高可用性云產(chǎn)品達到了承諾的服務(wù)水平,但表示部分用戶仍須手動將工作負載從受火災(zāi)影響的可用區(qū)遷出。
目前阿里云方面正在等待數(shù)據(jù)中心恢復(fù)正常,至少部分其他服務(wù)和產(chǎn)品則被迫下線。
截至本周二晚 20:04,這家云服務(wù)公司報告稱“火災(zāi)警報尚未完全消除”,工作人員無法進入著火的建筑,數(shù)據(jù)中心內(nèi)一些網(wǎng)絡(luò)設(shè)備“在高溫環(huán)境下已出現(xiàn)異常”,影響到部分云產(chǎn)品的網(wǎng)絡(luò)連接。
客戶收到警告信息,稱“新加坡 C 可用區(qū)遭遇網(wǎng)絡(luò)完全中斷的可能性正在增加”,通知建議“如果您的業(yè)務(wù)部署在新加坡 C 可用區(qū),我們將盡快協(xié)助您進行業(yè)務(wù)遷移。”
到周三凌晨 1:46 時,情況開始進一步惡化。
阿里巴巴方面表示,“機房開始出現(xiàn)積水和泄漏,電路存在短路風(fēng)險”,因此需要對新加坡 C 可用區(qū)的一棟建設(shè)進行緊急斷電。其他建筑的網(wǎng)絡(luò)服務(wù)則已逐步恢復(fù)。
Digital Realty 向媒體證實,截至周三凌晨 1:45,部分電氣系統(tǒng)已經(jīng)順利關(guān)閉。
2
數(shù)據(jù)中心火災(zāi)頻發(fā)
數(shù)據(jù)中心是數(shù)據(jù)存儲和處理的關(guān)鍵基礎(chǔ)設(shè)施,其安全性至關(guān)重要。近年來,全球范圍內(nèi)發(fā)生的數(shù)據(jù)中心火災(zāi)已造成巨大的經(jīng)濟損失。回顧近年數(shù)據(jù)中心火災(zāi)事故,顯示出這一問題的嚴重性和緊迫性。
2022 年 8 月,位于美國愛荷華州康瑟爾布拉夫斯的谷歌數(shù)據(jù)中心發(fā)生爆炸,造成 3 人受傷。該數(shù)據(jù)中心是谷歌最大的數(shù)據(jù)中心之一,其于 2009 年首次啟用。事故發(fā)生后,據(jù)宕機追蹤網(wǎng)站 Downdetector.com 數(shù)據(jù)顯示,美國有超過 4 萬人報告無法使用谷歌搜索。
因電池起火造成的意外事故也并不鮮見。2022 年 10 月,韓國 SK 公司 C&C 板橋數(shù)據(jù)中心發(fā)生火災(zāi),大火在大約 8 小時后被撲滅。經(jīng)調(diào)查發(fā)現(xiàn),安裝在地下三層電氣設(shè)備室的 5 個電池機架全部燒毀,電池和機架附近似乎因電氣因素失火。
本次火災(zāi)導(dǎo)致了約 3.2 萬個服務(wù)器癱瘓,數(shù)千萬用戶服務(wù)受到影響。數(shù)據(jù)中心失火后,包括 Kakao Talk 在內(nèi)的 Kakao 系列服務(wù)中斷了一天左右才逐步恢復(fù)。火災(zāi)之后,韓國科技部長官李宗昊就數(shù)據(jù)中心失火導(dǎo)致網(wǎng)絡(luò)平臺癱瘓一事致歉,幾天之后,Kakao 聯(lián)席 CEO 也因此引咎辭職。
法國云巨頭 OVH 也曾因 UPS(不間斷電源)起火導(dǎo)致一處數(shù)據(jù)中心下線。2021 年 3 月,這家法國運營商的 SBG2 數(shù)據(jù)中心發(fā)生了波及整棟大樓的起火事故,導(dǎo)致該區(qū)域的 4 個數(shù)據(jù)中心,一個被完全燒毀,另有一個部分受損。
起火后,癱瘓的法國政府、企業(yè)與公共事業(yè)網(wǎng)站達到約 360 萬個,一些游戲開發(fā)商在歐洲的業(yè)務(wù)也受到影響,部分位于該數(shù)據(jù)中心的服務(wù)器被燒毀,其中游戲《Rust》表示,25 臺歐洲服務(wù)器完全損毀,沒有備份,數(shù)據(jù)無法被修復(fù)。事后,超過 130 名客戶加入了集體訴訟,指責(zé) OVHcloud 未盡充分義務(wù),且沒有為受損失的企業(yè)提供足夠的賠償。該公司遲遲不披露起火原因,并堅稱必須等待官方報告。
在火災(zāi)發(fā)生一年后,Bas-Rhin 消防局發(fā)布了一份調(diào)查報告,強烈批評這家法國運營商的設(shè)施。由事故調(diào)查報告可知,這座數(shù)據(jù)中心存在相當(dāng)多的消防隱患,包括:采用了標(biāo)稱耐火僅一小時的木質(zhì)天花板、未配備自動滅火裝置、也沒有通用電氣切斷開關(guān)。不過更讓消防人員遺憾的是,這處設(shè)施還有一種自然冷卻設(shè)計,這也創(chuàng)造了可增加火勢的“煙囪效應(yīng)”。