it之家 6 月 14 日消息,谷歌表示於北京時間 6 月 14 日 22 點 49 分到 6 月 15 日凌晨 1 點 49 分,發生的 google cloud 大規模宕機事件源於 api 管理問題,持續超過三小時,影響全球數百萬用戶。
it之家援引博文介紹,谷歌表示在本次大規模宕機事件中,包括 gmail、google calendar、google docs、google drive 和 google meet 等核心工具無法正常使用。
谷歌表示,問題的根源在於 api 管理平台因無效數據而失效,且由於缺乏有效的測試和錯誤處理機制,未能及時發現並修復問題。
此次宕機不僅衝擊 google 自身服務,還波及眾多依賴 google cloud 的第三方平台,包括 spotify、discord、snapchat、npm 和 firebase studio 等。
cloudflare 部分服務也因依賴 workers kv 鍵值存儲系統而中斷。google 解釋,問題源於 api 管理系統的一次無效自動化配額更新,導致外部 api 請求被拒絕。儘管大多數地區在兩小時內恢復,但 us-central1 區域的配額策略數據庫超載,恢復時間更長。
cloudflare 在事後分析中指出,此次宕機並非安全事件引發,也未造成數據丟失。問題出在 workers kv 服務依賴的底層存儲基礎設施,而該基礎設施部分由第三方雲服務商提供(未明確指名,但確認與 google cloud 相關)。
為避免類似事件,cloudflare 計劃將 kv 核心存儲遷移至自有的 r2 對象存儲系統,以減少對外部服務的依賴。