继亚马逊AWS服务中断后不久,微软Azure也发生了大规模故障……这引发了许多人对云服务提供商近期状况的疑问。
近期,大量用户在X(原Twitter)、Hacker News、Reddit等社交平台报告称,微软Azure出现广泛服务中断,甚至Azure官网和microsoft.com都一度无法访问。
根据故障追踪网站Downdetector的统计,仅数小时内,全球多个地区就累计收到上千起报告,表明此次中断影响范围广泛,堪称一次全球性事件。
微软确认,Azure自2025年10月29日(周三)UTC时间16:00(太平洋时间09:00)起出现大范围中断,预计要到当日UTC时间23:20(太平洋时间16:20)才能完全恢复。
尴尬的是,这次宕机恰逢微软发布2026财年第一季度财报之际(微软的财年并不与日历年同步,其2026财年从2025年7月1日开始到2026年6月30日结束)。财报显示,Azure及其他云服务的收入较去年同期增长了40%,成为微软在季度财报中披露的增速最快的业务板块。
来源:https://www.microsoft.com/en-us/Investor/earnings/FY-2026-Q1/press-release-webcast
而此时Azure的全球性宕机事件的发生,似乎有些“打脸”。
据微软自己公布的影响范围显示,微软自家的核心业务是“重灾区”,包括Office 365、Minecraft、Xbox Live和Copilot在内的多项服务均出现不同程度的中断。
微软随后在声明中列出了受影响的Azure服务清单,范围之广令人咋舌:
“受影响的服务包括但不限于:App Service、Azure Active Directory B2C、Azure Communication Services、Azure Databricks、Azure Healthcare APIs、Azure Maps、Azure Portal、Azure SQL Database、Container Registry、Media Services、Microsoft Defender External Attack Surface Management、Microsoft Entra ID、Microsoft Purview、Microsoft Sentinel、Video Indexer、Virtual Desktop等。”
这些服务几乎涵盖了微软云生态的大半边天。
不仅如此,依赖Azure的企业服务也遭殃。
其中,阿拉斯加航空(Alaska Airlines)在其网上上发表声明称,由于微软Azure平台发生全球性宕机,托管在其上的阿拉斯加航空和夏威夷航空多项服务中断。航空公司提醒乘客:“无法在线值机的旅客请前往机场柜台领取登机牌,并在候机大厅预留更多时间。”
开源社区同样受波及。当打开Kubernetes管理工具时,出现“ResourceNotFound”错误,显示资源无法访问。截至发稿,仍未恢复。
加拿大魁北克的医疗机构Santé Québec也报告部分病患访问系统暂停运行——“由于微软Azure全球服务中断,一线接入点和虚拟护理平台目前无法使用。”
此外,DownDetector显示星巴克、克罗格、Costco等网站都出现了服务中断高峰。
随后,微软发布了初步调查报告,称这次事故的核心在于Azure Front Door(微软的内容分发网络服务)。
微软表示,在Azure Front Door(AFD)中,一次意外的租户配置更改引发了广泛的服务中断,影响了依赖AFD进行全球内容分发的微软自家服务和客户应用。
这次更改引入了一个无效或不一致的配置状态,导致大量AFD节点无法正常加载,从而引发下游服务的延迟增加、超时和连接错误。
随着这些异常节点陆续从全球节点池中掉线,健康节点之间的流量分配出现了严重失衡,放大了故障影响,甚至让部分“健康”区域也出现了间歇性可用的问题。
谈到故障影响范围,外媒Tom’s Hardware整理了微软确认的受影响服务和地区,最后甚至调侃道:“微软下次或许可以直接说‘无处不在’就行了!”
而后,微软紧急阻止所有新的配置更改,以防止错误状态继续传播,并开始在全球范围内部署“最后一次已知正常”的配置版本。
恢复过程采取了分阶段、渐进式策略,以确保系统稳定,并防止再次宕机。
最终,问题被追溯到租户配置部署流程中的缺陷:原本用于验证并阻止错误部署的防护机制因软件缺陷失效,导致异常配置绕过安全校验。
微软表示,目前已审查相关防护措施,并紧急增加了新的验证与回滚机制,以防止类似问题在未来重演。
根据微软公布的事故处理时间线显示,整个宕机持续了近9个小时:
不过,微软也在初步报告中指出,“目前客户对AFD的配置修改仍处于暂时冻结状态。解除后我们将另行通知。虽然整体的错误率与延迟已恢复到事发前水平,但仍有少量客户存在尾部问题,我们正在持续修复中。相关更新将通过Azure Service Health直接推送。”
事实上,这已经不是本月第一次云平台宕机了。
一周前,亚马逊AWS就因us-east-1区域DNS问题导致全球混乱——热门在线服务瘫痪、航班延误、银行系统受影响。当时AWS指出,问题源自EC2内部网络监控子系统异常,引发连锁故障。后来即使修复了,网络上关于宕机带来各种损失的争议也一直持续至今。
如今,全球云服务市场排名前两的AWS和Azure,连续出问题,这让业内担忧再度升温。
前美国联邦贸易委员会(FTC)委员、消费者金融保护局(CFPB)前主管Rohit Chopra在社交媒体上直言:“我们必须意识到,云服务的高度集中不仅带来不便,更是一种真实的系统性脆弱性。”
对于这种情况,美国网站性能监测服务商Catchpoint CEO Mehdi Daoudi也发表了自己的看法:“上周AWS出故障,这周轮到Azure,我毫不怀疑下周又会有另一家《财富》100强企业遭遇类似问题。即便是最先进的基础设施,韧性缺口(系统、基础设施或服务在面对故障、意外或压力时的抵抗力和恢复能力不足的部分)依然普遍存在。Azure宕机不仅影响核心服务,还波及DNS和CDN层,使依赖这些服务的工具——比如会话记录和分析平台——完全无法访问。”
他强调,“像这样的宕机在短短几小时内就可能让行业损失数千万美元。这也再次提醒我们,互联网的高度互联意味着一次配置错误或网络边缘变更(例如AFD端的问题)都可能迅速波及支撑全球数百万用户的服务。归根结底,韧性必须成为董事会层面的议题,否则这种长时间且代价高昂的宕机事件还会继续发生。”
云计算带来了便利,但也让全球互联网更脆弱。AWS和Azure的接连“罢工”,提醒我们:当少数几家巨头掌控了互联网的大部分神经时,一次配置错误、一次网络异常,就可能引发全球性连锁反应。企业在享受云服务带来的弹性与便捷时,是否也该考虑冗余、多云部署,甚至更多自主控制权?
对此,你有什么样的看法?欢迎留言分享。
参考:
https://azure.status.microsoft/en-gb/status/history/
https://www.tomshardware.com/news/live/aws-outage-strikes-again-colossal-internet-breakdown-strikes-again
https://www.techradar.com/pro/live/microsoft-down-major-outage-hits-azure-365-and-more-even-minecraft-affected
本文由主机测评网于2026-01-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118282.html