“总不能让我这个上班才 1 周的新人来背锅吧?” #CloudFlare 公布最新事故的初步报告。
查看全文:https://t.co/ahJf0CWKqj
CloudFlare 本周遭遇了长达 40 个小时的服务中断,目前 CloudFlare 发布了一篇博客算是初步报告,下面是报告中的一些要点。
要点:
1. 机房夜班只有保安和 1 名上班刚 1 周的新人(夜班技术人员),没有经验丰富的电气工程师和技术人员;
2. 机房门禁没有备用电源,于是停电后进不去了 (估计后面是暴力拆门的);
3. 高压线 (12kV) 出现了接地故障导致大量设备停机保护,连发电机都被停机保护了,要恢复必须物理、手动重启;
4. 机房断路器没有备用或备用的不够,不知道是浪涌还是高压接地导致一大批断路器挂了,大半夜的不太好买断路器;
5.CloudFlare 的一些新产品并没有经过完全、严格的灾备测试,导致故障转移后并不能正常恢复。
建议对运维有兴趣的用户查看 CloudFlare 博客原文。
点击图片查看原图