在2025年10月,當今雲端的兩大支柱——AWS和Microsoft Azure——在相隔僅九天內遭遇了大規模故障。AWS US-EAST-1因DNS和DynamoDB控制平面故障而崩潰,而Azure Front Door則傳播了一個有缺陷的全球配置,導致Microsoft 365、Outlook和Teams的路由和身份驗證中斷。這兩起事件揭示了所謂「永不停機」的互聯網實際上有多脆弱,並造成了數十億美元的停機損失。關鍵教訓是什麼?高可用性並不等於真正的彈性。多區域設置還不夠;自動化健康檢查、測試故障轉移,並將故障設計為默認狀態。在雲端時代,彈性不是一項功能——而是一種文化。在2025年10月,當今雲端的兩大支柱——AWS和Microsoft Azure——在相隔僅九天內遭遇了大規模故障。AWS US-EAST-1因DNS和DynamoDB控制平面故障而崩潰,而Azure Front Door則傳播了一個有缺陷的全球配置,導致Microsoft 365、Outlook和Teams的路由和身份驗證中斷。這兩起事件揭示了所謂「永不停機」的互聯網實際上有多脆弱,並造成了數十億美元的停機損失。關鍵教訓是什麼?高可用性並不等於真正的彈性。多區域設置還不夠;自動化健康檢查、測試故障轉移,並將故障設計為默認狀態。在雲端時代,彈性不是一項功能——而是一種文化。

當雲端也感冒了:深入了解 2025 年 AWS 和 Azure 的服務中斷事件

2025/11/03 00:28

2025年10月,網際網路提醒我們,沒有什麼—絕對沒有什麼—能夠免於失敗。\n 僅僅九天內,全球兩大雲端服務供應商—Amazon Web Services (AWS)Microsoft Azure—遭遇了大規模故障,在數位世界中引發了震盪。

應用程式凍結了。\n 網站陷入黑暗。\n 語音助理停止回應。\n 甚至企業儀表板也像暴風雨中的城市燈光一樣閃爍熄滅。

在幾個超現實的小時內,現代網際網路—我們看不見的基礎設施—突然感覺如此脆弱。

發生了什麼?作為建設者、架構師,甚至是日常用戶,我們能從雲端崩潰的那個月中學到什麼?

AWS 故障當天

一切始於AWS US-EAST-1—這個為全球大量網際網路應用提供動力的惡名昭彰區域。

\n 在2025年10月20日,DNS解析錯誤開始在各服務中級聯擴散,干擾了EC2S3Lambda等服務。

\n 幾分鐘內,像SnapchatFortniteAlexa這樣的平台開始出現故障。

技術層面的故障原因

  • 根本觸發因素:US-EAST-1區域中AWS的DynamoDB API相關的DNS問題,導致內部控制平面請求失敗。
  • 級聯效應:EC2和Lambda操作無法解析服務端點,導致部署卡住和超時。

:::info 結果:「多個AWS服務的錯誤率和延遲增加了。」

:::

對於依賴單一區域的公司來說,這是一次警醒。\n 許多公司意識到為時已晚,「高可用性」與真正的彈性並不相同。

Azure緊隨其後

就在情況剛剛平息時,Microsoft Azure10月29日遭遇了自己的全球性故障。\n 這次,罪魁禍首是Azure Front Door—這項在全球範圍內路由和加速網路流量的服務。\n 當它崩潰時,無數網站和應用程式隨之而去。甚至Microsoft 365OutlookTeams用戶也面臨中斷。

技術層面的故障原因

  • 根本原因:通過Azure Front Door全球推送的錯誤配置繞過了內部安全檢查。
  • 影響:全球路由失敗和身份驗證超時在Microsoft自己的服務中級聯擴散。
  • 效果:由於DNS錯誤路由和SSL協商錯誤,應用程式離線數小時,造成廣泛中斷。

再次,同樣的問題浮出水面:

如果你仔細觀察,這兩次故障都揭示了更深層次的問題—我們的數位世界比我們想像的更加相互連接

一個供應商的路由問題可能會阻塞另一個供應商的流量。\n 單一區域的DNS故障可能會凍結數千個從未意識到自己依賴於它的應用程式。

這就像電力:你可以擁有世界上最好的電器,但如果電網崩潰,一切都會停止。

這就是2025年10月的故事。

工程師學到的(你也應該學習的)

  • 多區域 ≠ 多雲彈性:許多企業在兩個AWS區域中託管—但如果DNS層或控制平面節點失敗,兩者都會陷入黑暗。真正的彈性意味著在供應商地理位置之間多樣化。

\

  • 自動化很重要:擁有自動化健康檢查、故障轉移腳本、Route 53或Azure DNS上的TTL(生存時間)調整的公司恢復得更快。手動干預根本跟不上。

\

  • 測試你的災難恢復(不僅僅是記錄它):「我們有災難恢復計劃」是不夠的。問題是:你這個季度測試過它嗎?混沌工程和故障模擬不是奢侈品—它們是生存演練。

\

  • 依賴關係是無聲的殺手:從第三方API到CDN層,每個外部服務都增加了一個故障向量。如果Azure Front Door失敗,你的「獨立」應用可能根本不那麼獨立。

停機的代價

分析師估計,這些綜合故障造成了數十億美元的收入損失—以及無數小時的生產力損失。初創公司失去了客戶。企業失去了信任。在幾個緊張的小時內,甚至主要銀行也切換到了備份系統。

但也許最大的代價是心理上的—意識到我們的「永遠在線」世界並不保證會一直如此。

前進的道路:為失敗而建設

雲端並沒有壞—它只是在進化。AWS和Azure的故障並不是信任的終結;它們是智慧的開始。

這是每個架構師和開發人員需要的思維轉變:

  • 設計時就假設失敗是必然的。
  • 部署時就假設區域會崩潰。
  • 溝通時就假設用戶會恐慌。

彈性不是一個勾選項;它是一種文化。無論你使用AWS、Azure還是任何其他平台,2025年10月的教訓很簡單:

最後的思考

2025年10月不僅僅是一個故障的月份—它是一面**映照我們數位世界的鏡子。\ 它展示了我們走了多遠,我們多麼依賴看不見的基礎設施,以及我們「永遠在線」的生活實際上有多麼脆弱。

下一次故障一定會發生—這不是是否的問題,而是何時的問題。\n 真正的問題是:在下一次雲端崩潰之前,你準備好了嗎?

\

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。
分享文章

您可能也會喜歡