it之家 6 月 14 日消息,谷歌表示于北京时间 6 月 14 日 22 点 49 分到 6 月 15 日凌晨 1 点 49 分,发生的 google cloud 大规模宕机事件源于 api 管理问题,持续超过三小时,影响全球数百万用户。
it之家援引博文介绍,谷歌表示在本次大规模宕机事件中,包括 gmail、google calendar、google docs、google drive 和 google meet 等核心工具无法正常使用。
谷歌表示,问题的根源在于 api 管理平台因无效数据而失效,且由于缺乏有效的测试和错误处理机制,未能及时发现并修复问题。
此次宕机不仅冲击 google 自身服务,还波及众多依赖 google cloud 的第三方平台,包括 spotify、discord、snapchat、npm 和 firebase studio 等。
cloudflare 部分服务也因依赖 workers kv 键值存储系统而中断。google 解释,问题源于 api 管理系统的一次无效自动化配额更新,导致外部 api 请求被拒绝。尽管大多数地区在两小时内恢复,但 us-central1 区域的配额策略数据库超载,恢复时间更长。
cloudflare 在事后分析中指出,此次宕机并非安全事件引发,也未造成数据丢失。问题出在 workers kv 服务依赖的底层存储基础设施,而该基础设施部分由第三方云服务商提供(未明确指名,但确认与 google cloud 相关)。
为避免类似事件,cloudflare 计划将 kv 核心存储迁移至自有的 r2 对象存储系统,以减少对外部服务的依赖。