DMIT 告知用户圣何塞的服务器数据已无法完整恢复

DMIT 已通过电子邮件和公告告知客户,由于圣何塞机房部分数据无法恢复,已影响到虚拟机文件系统和磁盘挂载。部分实例将无法启动或系统挂起,需要重建或手动修复。

DMIT 调查认为故障的直接原因是 OSD 过载导致没有足够容量分配Log空间,并在第二个 OSD 触发故障导致数据回填后引发了连锁反应,多个 OSD 由于数据写满无法启动。

DMIT 说,3月1日圣何塞收到大量订单,资源开始紧张。它原本计划在3月8日扩充硬盘,但由于天气原因,联邦快递将原计划3月7日交付的时间推迟到3月9日。而故障发生在了3月8日晚间。

据DMIT官方人士在公开群组中的发言,骤增的订单来自于 TikTok 用户,据推测,这可能是由于美国的部分机房IP段能够解锁TikTok美国,创作者将可以通过大量播放量赚取到美元。同时因为频繁重装系统,造成了资源持续高占用,进一步推高了服务器负载。

作为补偿,受影响的用户服务期将延长30天,并虚拟机的传输容量永久性地增加一倍,对于UNMETERED计划则带宽增加一倍。

DMIT 是一家以线路见长的服务商,本次事故暴露了其在运维上的短板。

法国主机托管商 OVH 因人为配置错误造成网络故障

今天下午3点30分(UTC+8)开始 OVH 的部分机房设备无法连接,故障持续到下午4点20分。

OVH 随后在推特发帖说故障是因“人为错误”引起的,在之后更多的信息中可以获知,技术人员在给美国东部一个节点进行网络配置时产生了一个错误,该错误波及到了 OVH 的全球节点,OVH 随后隔离了这个节点。

此次故障还波及到了 OVH 的子品牌 Kimsufi。

这不是 OVH 今年第一次犯错,3月份OVH位于斯特拉斯堡的机房发生了一起严重火灾,大火完全烧毁了当地4个数据中心中的1个,严重破坏了另外1个。

为什么 OVH 会犯这样的低级错误?本月4日,Facebook 的工程师就因错误地发出了一条指令,切断了“脸书”的数据中心“在全球范围内的所有网络连接”,此次错误使得这家科技巨头蒙受了巨额的经济损失。

人为错误即使在互联网巨头中也难以避免,而它造成的危害却有可能是巨大的。

facebook 凌晨发生故障

今天凌晨,facebook 及其旗下的包括 Instagram 和 WhatsApp 在内的一系列应用无法访问,仅数分钟内这些应用就从互联网上消失了。故障一直持续了约5个小时。

问题来得如此突然,一度令 CloudFlare 怀疑是自己的 DNS 解析器出现了问题。

facebook 的中心 DNS 服务器故障造成了这一近期最大的互联网事件,也暴露了 FB 内部技术网络同质化严重,使其在一个核心节点出现问题后迅速蔓延至整个网络。

由于脸书被用来登录许多其他应用程序和服务,导致了意想不到的多米诺骨牌效应,如人们无法登录购物网站或登录他们的智能电视、恒温器和其它互联网连接的设备。

facebook 股价随即大跌5%。

12月16日 Telegram 欧洲及中东地区连接故障

21:30 左右,Telegram 在其推特中发帖说:我们的一些用户(主要在欧洲和中东)目前遇到连接问题。我们正在努力使他们重新联网。

目前 Telegram 的官网已经处于无法打开的状态,返回 500 错误。

年末,互联网大咖轮番登场,似乎在争相提醒用户失去他们所需面临的后果。

22:10 更新:TG网站已经恢复访问,部分连接也已经恢复。
22:17 更新:TG在推特发帖说一部分用户已经恢复上线。
22:33 更新:Telegram 认为故障已被排除。

本次故障对中国用户影响较小,因为中国用户一般不使用欧洲机器作代理,只是出现了部分机器人无法使用,图片加载失败的异常情况。

12月15日 Cloudflare 中国区域出现解析故障

20:30 左右,在中国内地访问DNS托管于Cloudflare的网站开始出现解析失败,提示“此网站无法提供安全连接”。

包括 Cloudflare 官网在内的网站无法通过中国内地网络直接访问。来自国内的部分请求指向百度云加速或京东智联云;一部分请求报SSL错误。

据推测本次故障可能与 CF 从百度云加速切换至京东云有关。此前,CF曾宣布将会终止与百度的合作。

21:40 更新:CFstatus 发布信息称已经注意到问题存在,随着获得更多的信息,将提供更多细节。

21:49 更新:CF 称已经发现问题,并且正在实施修复程序。

22:11 更新:CF称已实施修复,正在监视结果。

22:22 更新:CF确认问题已经解决。

12月14日 Google 出现大规模服务中断故障

14日晚间 19:40 (UTC/GMT+08:00)起,Google 旗下的多个产品陆续出现服务暂不可用的故障。这包括 YouTube、Gmail、Adsense、Drive 等核心业务。

这是一起波及全球的故障,故障至少持续了1个小时,波及了几乎所有应用,到20:40左右,服务陆续恢复,但部分页面依然有报错提示出现。可见 Google 的工程师正在夺回事件的主动权,预料这样严重的故障不会持续太久的时间,幸运的是 Google 搜索一直处于正常使用的状态。

显而易见,这是一起影响范围巨大的事件,这样的故障并不多见。

21:00 更新:Google Workspace 状态信息中心显示全部服务已经恢复正常;
21:40 更新:服务状态显示 Gmail 依然会遇到错误消息、长时间延迟等异常;
22:06 更新:Google 确认 Gmail 的故障已被排除,服务正常可用;
22:40 更新:GCP 推特发帖称:由于内部存储配额原因,造成 Google 身份验证系统中断。

Cloudflare遭遇短暂技术故障,后台管理功能无法正常使用

晚间,用户发现Cloudflare后台出现API无法拉取数据的情况。

Cloudflare随后表示正在调查Cloudflare仪表板和相关API的问题。大约半个小时确定了故障原因,经过约20分钟的处置CF认为故障已被排除,正在观测。

本次出现的这些问题不会影响通过Cloudflare CDN或Cloudflare Edge上其他安全功能提供的缓存文件。 

使用仪表板/ Cloudflare API的客户会受到影响,因为请求可能会失败和/或可能会显示错误。