资讯-淘券派

阿里云的严重事故,钉钉、闲鱼、淘宝、语雀等都崩了

许多小伙伴应该都听说过,前两天在IT行业爆出了一个大瓜。是什么事情呢?

在11月12日17:50-21:15。, 三个半小时的时间里,不但阿里云、钉钉、闲鱼、淘宝、语雀......甚至连某些高校的饮水机都崩了!



故障现象

阿里的内部服务都是部署在阿里云上,所以阿里系的各个产品都出现了崩溃问题,一度冲上了微博热搜。



可以从阿里云的官方监控 阿里云健康状态[1] 看到亚太,欧美,中东各个地区在11-12日的所有产品都处于异常状态。

其中比如容器服务Kubernetes版,轻量应用服务器这些底层服务是非常非常重要,一旦出现问题会直接导致服务完全不可用。



故障复盘

事故描述

事故开始时间:2023-11-13 17:44

事故发现时间:2023-11-13 17:44

事务恢复时间:2023-11-13 21:13

TTD:由于影响范围很大,理论上很快就被发现了,应该在5分钟以内。

TTE:由于是严重的线上问题,必须马上放下其他工作处理这个问题,应该在5分钟以内。

TTM:3.5小时


TTD (Time To Detect):指的是从故障发生到被检测到的时间。这是一个关键指标,因为它影响着整个故障响应过程的开始。

TTE (Time To Engage):指从故障被检测到到相应团队或个人开始响应和处理这个问题的时间。它反映了组织对紧急情况的反应速度。

TTM (Time To Mitigate):指从开始处理故障到故障被缓解或解决的时间。这个指标体现了解决问题的效率

时间线