阿里云宕機事件原因
發布時間:2025-10-28 23:39:12
?
閱讀量:19次
?
來源:互聯網
這個事故的主要原因,就是因為制冷設備整整10個小時不能恢復工作,機房升溫太快,工程師為了保護數據,只能逐步關機。
次要原因是,在關機后還是有某個包間因為溫度過高導致噴淋裝置啟動。手機和電腦不能進水都已經是常識了,服務器上淋了水那還得了?
再次原因,就是阿里云香港Reigon的架構設計,同樣沒有遵循自己提到的「全鏈路多可用區的業務架構設計」,新擴容的ECS管控系統啟動時依賴的中間件服務部署在可用區C機房,導致可用區C一旦宕機,擴容服務也啟動不了。相信后續阿里云一定會全網巡檢,整體優化多可用區高可用設計,避免制造單點故障,類似依賴OSS單AZ和中間件單AZ的問題,再次出現就說不過去了。