阿里云的香港服务据点出现了严重故障,导致托管在该地域的众多服务项目无法访问,其中包括澳门金融管理局、澳门银河、莲花卫视等多个关键基础设施,以及众多加密货币交易所,如Gate.io和OKX
这一事件迅速引发了广泛的关注和讨论,不仅考验了阿里云的技术应对能力,也挑战了客户对其的信任
阿里云在故障发生后迅速响应,通过官网发布了处理进展
据阿里云官方通报,此次故障系香港PCCW机房制冷设备故障所致,影响了香港地域可用区C的云服务器ECS、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT网关、VPN网关等)等云产品的使用
此外,故障还影响了香港地域控制台访问和API调用操作,导致众多客户的业务受到重大影响
面对如此严重的故障,阿里云工程师与PCCW机房工程师紧密合作,加速处理故障
然而,修复过程并非一帆风顺
据阿里云发布的《关于阿里云香港 Region 可用区 C 服务中断事件的说明》显示,故障始于当日08:56,阿里云监控到机房包间通道温控告警,随后工程师介入应急处理,并通知机房服务商进行现场排查
然而,由于机房冷却系统缺水进气形成气阻,影响水路循环,导致4台主冷机服务异常,启动4台备冷机时也因主备共用的水路循环系统气阻导致启动失败
在长达数小时的紧张修复过程中,阿里云工程师尝试了多种方法,包括辅助散热、应急通风、对冷机控制系统进行隔离和手工恢复操作等,但均未能使系统稳定运行
直至冷机设备供应商到场,经过多方工程师诊断,对冷塔、冷却水管路及冷机冷凝器进行手工补水排气操作,系统才逐渐恢复正常
最终,在当日22:50左右,最后一个包间的服务器也依据安全性逐步进行供电恢复和服务器启动,机房温度趋于稳定
然而,这场故障对众多客户的影响却是深远的
据南都报道,截至12月18日下午6时许,虽然澳门一些受影响的网站已可正常打开访问,但当地一些传媒应用程序仍无法登录
而对于加密货币交易所来说,这次故障更是带来了前所未有的挑战
知名交易平台Gate.io发布公告表示,受运营商部分网络节点维护影响,充提服务将出现延缓
而OKX则更为严重,部分用户无法提领,帐户更显示资金归零
这些事件无疑对客户的信任和业务连续性造成了极大的冲击
在故障修复后,阿里云向所有受到故障影响的客户公开致歉,并承诺将根据相关产品的SLA协议进行赔付
然而,对于众多客户来说,更重要的是阿里云能否从这次事件中吸取教训,进一步提升其技术应对能力和服务水平
回顾这次香港服务器宕机事件,我们不难发现,技术故障往往是在不经意间发生的,但其对业务的影响却是深远的
因此,作为云服务提供商,阿里云需要时刻保持警惕,不断提升其技术水平和应急响应能力
同时,作为客户