交易所DEX+

在2025年10月，當今雲端的兩大支柱——AWS和Microsoft Azure——在相隔僅九天內遭遇了大規模故障。AWS US-EAST-1因DNS和DynamoDB控制平面故障而崩潰，而Azure Front Door則傳播了一個有缺陷的全球配置，導致Microsoft 365、Outlook和Teams的路由和身份驗證中斷。這兩起事件揭示了所謂「永不停機」的互聯網實際上有多脆弱，並造成了數十億美元的停機損失。關鍵教訓是什麼？高可用性並不等於真正的彈性。多區域設置還不夠；自動化健康檢查、測試故障轉移，並將故障設計為默認狀態。在雲端時代，彈性不是一項功能——而是一種文化。在2025年10月，當今雲端的兩大支柱——AWS和Microsoft Azure——在相隔僅九天內遭遇了大規模故障。AWS US-EAST-1因DNS和DynamoDB控制平面故障而崩潰，而Azure Front Door則傳播了一個有缺陷的全球配置，導致Microsoft 365、Outlook和Teams的路由和身份驗證中斷。這兩起事件揭示了所謂「永不停機」的互聯網實際上有多脆弱，並造成了數十億美元的停機損失。關鍵教訓是什麼？高可用性並不等於真正的彈性。多區域設置還不夠；自動化健康檢查、測試故障轉移，並將故障設計為默認狀態。在雲端時代，彈性不是一項功能——而是一種文化。

當雲端也感冒了：深入了解 2025 年 AWS 和 Azure 的服務中斷事件

作者：Hackernoon

2025/11/03 00:28

在2025年10月，網際網路提醒我們，沒有什麼—絕對沒有什麼—能夠免於失敗。\n 僅僅九天內，全球兩大雲端服務供應商—Amazon Web Services (AWS)和Microsoft Azure—遭遇了大規模故障，在數位世界中引發了震盪。

應用程式凍結了。\n 網站陷入黑暗。\n 語音助理停止回應。\n 甚至企業儀表板也像暴風雨中的城市燈光一樣閃爍熄滅。

在幾個超現實的小時內，現代網際網路—我們看不見的基礎設施—突然感覺如此脆弱。

發生了什麼？作為建設者、架構師，甚至是日常用戶，我們能從雲端崩潰的那個月中學到什麼？

AWS 故障當天

一切始於AWS US-EAST-1—這個為全球大量網際網路應用提供動力的惡名昭彰區域。

\n 在2025年10月20日，DNS解析錯誤開始在各服務中級聯擴散，干擾了EC2、S3、Lambda等服務。

\n 幾分鐘內，像Snapchat、Fortnite和Alexa這樣的平台開始出現故障。

技術層面的故障原因

根本觸發因素：與US-EAST-1區域中AWS的DynamoDB API相關的DNS問題，導致內部控制平面請求失敗。
級聯效應：EC2和Lambda操作無法解析服務端點，導致部署卡住和超時。

:::info 結果：「多個AWS服務的錯誤率和延遲增加了。」

:::

對於依賴單一區域的公司來說，這是一次警醒。\n 許多公司意識到為時已晚，「高可用性」與真正的彈性並不相同。

Azure緊隨其後

就在情況剛剛平息時，Microsoft Azure在10月29日遭遇了自己的全球性故障。\n 這次，罪魁禍首是Azure Front Door—這項在全球範圍內路由和加速網路流量的服務。\n 當它崩潰時，無數網站和應用程式隨之而去。甚至Microsoft 365、Outlook和Teams用戶也面臨中斷。

技術層面的故障原因

根本原因：通過Azure Front Door全球推送的錯誤配置繞過了內部安全檢查。
影響：全球路由失敗和身份驗證超時在Microsoft自己的服務中級聯擴散。
效果：由於DNS錯誤路由和SSL協商錯誤，應用程式離線數小時，造成廣泛中斷。

再次，同樣的問題浮出水面：

我們能從AWS故障中學到什麼：相互依賴是薄弱環節

如果你仔細觀察，這兩次故障都揭示了更深層次的問題—我們的數位世界比我們想像的更加相互連接。

一個供應商的路由問題可能會阻塞另一個供應商的流量。\n 單一區域的DNS故障可能會凍結數千個從未意識到自己依賴於它的應用程式。

這就像電力：你可以擁有世界上最好的電器，但如果電網崩潰，一切都會停止。

這就是2025年10月的故事。

工程師學到的（你也應該學習的）

多區域 ≠ 多雲彈性：許多企業在兩個AWS區域中託管—但如果DNS層或控制平面節點失敗，兩者都會陷入黑暗。真正的彈性意味著在供應商和地理位置之間多樣化。

自動化很重要：擁有自動化健康檢查、故障轉移腳本、Route 53或Azure DNS上的TTL（生存時間）調整的公司恢復得更快。手動干預根本跟不上。

測試你的災難恢復（不僅僅是記錄它）：「我們有災難恢復計劃」是不夠的。問題是：你這個季度測試過它嗎？混沌工程和故障模擬不是奢侈品—它們是生存演練。

依賴關係是無聲的殺手：從第三方API到CDN層，每個外部服務都增加了一個故障向量。如果Azure Front Door失敗，你的「獨立」應用可能根本不那麼獨立。

停機的代價

分析師估計，這些綜合故障造成了數十億美元的收入損失—以及無數小時的生產力損失。初創公司失去了客戶。企業失去了信任。在幾個緊張的小時內，甚至主要銀行也切換到了備份系統。

但也許最大的代價是心理上的—意識到我們的「永遠在線」世界並不保證會一直如此。

前進的道路：為失敗而建設

雲端並沒有壞—它只是在進化。AWS和Azure的故障並不是信任的終結；它們是智慧的開始。

這是每個架構師和開發人員需要的思維轉變：

設計時就假設失敗是必然的。
部署時就假設區域會崩潰。
溝通時就假設用戶會恐慌。

彈性不是一個勾選項；它是一種文化。無論你使用AWS、Azure還是任何其他平台，2025年10月的教訓很簡單：

最後的思考

2025年10月不僅僅是一個故障的月份—它是一面**映照我們數位世界的鏡子。\ 它展示了我們走了多遠，我們多麼依賴看不見的基礎設施，以及我們「永遠在線」的生活實際上有多麼脆弱。

下一次故障一定會發生—這不是是否的問題，而是何時的問題。\n 真正的問題是：在下一次雲端崩潰之前，你準備好了嗎？

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

分享文章