过去三周,最广泛使用的云服务亚马逊 AWS 发生了两次严重的宕机事故,影响了大量服务。今年上半年 CDN 服务商 Fastly 的宕机让无数网站无法访问,去年 11 月 AWS 的宕机影响到了包括苹果在内的公司。最近一次故障发生在上周三,Hulu 等网站的客户抱怨无法连接。问题追踪到 AWS,它报告 26 个区域中有两个区域出现故障,影响全美范围内的服务。12 月 7 日发生过类似的故障,流视频瘫痪,联网机器人真空吸尘器停止工作,甚至宠物喂食机也不工作。一连串的故障显示出人们将多少生活转移到了网上,尤其是在新冠疫情期间。AWS 就该故障发布了异常详细的问题描述并道歉。
几十年来,互联网的速度和可靠性一直在稳步提高,造成了一种错觉,即普通消费者可依赖在线服务,它永无故障,一直可用。这些宕机事故戳破了这种幻象。计算机科学和安全专家表示,这些故障并没有真正对互联网的基本设计提出质疑,互联网的创始理念之一就是即使一部分出现故障,分布式系统也能继续正常运行。但他们表示,问题的根源在于互联网发展的不平衡,某些数据中心比其他数据中心更重要;Amazon、Google 和微软运营的云业务集中了更多力量;云服务的企业客户并不总是愿意为备份系统和员工承担额外费用。
耶鲁大学法学院网络安全讲师 Sean O’Brien 表示,这些故障令人怀疑依赖大数据中心是否明智。他表示:“‘云’从来都是不可持续的,它只是由中央集权的实体控制集中网络资源的一种委婉说法。”他补充表示,点对点技术和边缘计算等替代方案可能会受到青睐。在上周的故障之后,他写道,大型云供应商相当于一个“封建”系统。
纽黑文大学计算机科学助理教授 Vahid Behzadan 表示:“一些故障点不可用或者运行状况不理想会影响整个互联网的全球体验。”Behzadan 表示:“短时间内反复出现故障的事实敲响了警钟。”Behzadan指 出美国企业认为云服务具有弹性,并因此投入了大量资金。