首页 > Filecoin > 正文

十大主流云服务商宕机事故盘点:谷歌、阿里云等无一幸免

18170979365  2019-06-11  IPFS/Filecoin栏目  

2018年,云计算市场依然发展迅速,但是问题也没有间断,主流云厂商均未逃过宕机事件,更有甚者一年出现多次服务宕机,导致不少企业对公有云的信心受到了打击。中科星际总结了2018 年国内外的十大云宕机事故,也希望所有云厂商能引以为戒。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

 

事故十

5 月 31 日 AWS Northern Virginia数据中心出现硬件故障

故障详情:2018 年 5月31日,因北弗吉尼亚地区的数据中心出现硬件故障,AWS 再次出现连接问题。在此事故中,AWS 的核心 EC2 服务,Workspaces 虚拟桌面服务以及 Redshift 数据仓库服务均受到影响。

采取措施: 人为修复

宕机时长:30 分钟左右

事故后续: 亚马逊公司 S3 的副总裁兼总经理 Mai-Lan 接受采访表示,亚马逊从未见过数据中心崩溃。这意味着,过去的每一次事故都未曾导致整个数据中心的崩溃,AWS 也在系统设计层面进行了改进以防止此类事故发生。

 

事故九

1月18日 Google云自动化失效导致宕机

故障详情:2018 年 1月 18日,Google云自动化机制失效,导致其 us-central1 和 europe-west3 两大可用区中的计算引擎停运 93 分钟。Google对此的回应是“网络编程失效”导致 Autoscaler(自动扩展器)服务无法正常运行,该服务失效意味着新的虚拟机或刚迁移的虚拟机无法与其他可用区虚拟机联系。

采取措施: 工程团队手动切换到替换任务,以恢复数据持久层正常运行。

宕机时间:93 分钟

事故后续: Google承诺,未来如果配置数据过时,Google将停止虚拟机迁移,数据持久层会在长时间运行进程期间重新解析对等体(peer),以便故障发生时迅速切换到替换任务。

 

事故八

6月27日 阿里云故障

故障详情:2018 年 6 月 27 日 16:20 左右,阿里云出现重大技术故障,16:50 分开始陆续恢复,官方给出的故障时间为 30 分钟左右,恢复时间大概花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知bug。

采取措施: 人工介入,定位并解决问题。

宕机时间:30 分钟,恢复时间花费一小时左右。

事故后续: 本次事故被定义为核心业务重要功能不可用,影响大量用户,造成极大的损失。阿里云事后发布官方声明,表示“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”

 

事故七

3 月 2 日 AWS 宕机致部分 Alexa无法提供服务

故障详情:2018 年 3 月 2 日凌晨,部署在 AWS 上的部分 Alexa开始出现失声问题,该智能音箱的故障指示灯不断闪烁提示服务出现中断。据了解,这一故障源于亚马逊 AWS 的网络服务出现问题,其他依赖AWS网络服务的应用也在当天也受到了影响,包括云通讯公司 Twilio, 软件公司 Atlassian等。

采取措施: 亚马逊 AWS 的在线支持团队对此进行了人工介入并修复。

宕机时间: 数小时

事故后续: 亚马逊 AWS 未对此故障进行详细说明,只透露与网络连接有关。

 

事故六

6月17日 Microsoft Azure 爱尔兰数据中心宕机

故障详情:2018年6月17日至18日,因爱尔兰数据中心的温控系统出现故障,导致Azure存储和网络中断。

宕机时间:故障持续时间5小时以上

 

事故五

7月24日 腾讯云宕机

故障详情:2018 年 7 月 24 日,用户登录腾讯云时反复出现超时、退出等情况,即便更换运营商,结果也一样。随后,腾讯云发布通知称初步确定是运营商光缆中断,运营商已经找到断点,正在连线中,主要受影响的为广州区域部分用户。

采取措施: 运营商第一时间介入抢修。

宕机时间: 宕机时间不明,恢复时间花费40分钟左右

 

事故四

2018年7月 亚马逊 AWS 故障

故障详情:2018年7月是亚马逊在全球范围内启动的为期36小时的会员促销活动,活动刚刚开始,亚马逊网站和App就同时发生严重宕机,不光电子商务业务停顿,亚马逊的其他产品和服务都受到了不同程度的影响。AWS对此给出的解释是AW的管理控制台出现全球性问题。

宕机时间: 6小时左右。

事故后续:AWS 发言人表示,间歇性的 AWS 管理控制台问题并未对亚马逊的消费者业务产生任何有意义的影响。

 

事故三

11月9日 Google公有云下的 K8s 服务(GKE)宕机

故障详情:2018年11 月 9 日,Google公有云上提供的 K8s 服务(GKE)节点池出现功能异常,运维人员无法通过Console UI 建立新的云节点。

采取措施: 人工介入并维修。Google表示,受影响的企业用户可以先改为使用 GCP 内建的 gcloud command,建置新 K8s 节点。

宕机时间: 接近 19 小时

 

事故二

9月4日 Microsoft Azure 数据中心遭遇雷击宕机

故障详情:2018年9 月 4 日上午,Microsoft Azure 美国中南区数据中心附近发生雷暴等恶劣天气,影响到冷却系统的电压,导致多个Azure可用区出现连接问题,客户难以访问存储在该区数据中心的数据。受影响的服务包括 Active Directory、 Online、365、Visual Studio Team Services 等。

采取措施:9 月 5 日上午,Microsoft工程师已恢复数据中心的电力和大多数网络设备,其他服务也在陆续恢复中。

宕机时间: 超过 24 小时

 

故一

7月20日:腾讯云云存储故障

故障详情:2018 年 8 月 5 日,北京清博数控科技有限公司在官方微博发布了一篇题为《腾讯云给一家创业公司带来的灾难》的博文,文中表示2018 年 7 月 20 日,腾讯云云存储发生故障(腾讯后期给出的故障原因说明),导致该公司的数据完全丢失,并且无法恢复,这是该创业公司评估近千万元级的平台数据,包括经过了长期推广导流积累起来的注册用户以及内容数据。

采取措施: 腾讯表示,监测到异常后第一时间向用户告知了故障状态,并组织存储专家和存储厂商技术专家尝试修复数据。但经过多方努力,最终仍有部分数据完整性校验失败,无法恢复。

事故后续: 腾讯提出了“赔偿+补偿”的后续方案,并承诺会继续与“前沿数控”保持沟通,帮助其进行业务恢复。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

对于很多中小企业来说,自建机房的人力和维护成本太高,他们希望利用云主机的低成本、可扩展性、便利性和高可靠性等优点,但却担心面临宕机,数据丢失等风险。但是这些风险通常和公有云是相同的,例如安全漏洞、监管问题,以及缺乏有关如何构建云计算基础设施的知识和经验。过去几年,云供应商还发生过数起大大小小的故障,也说明企业的担心不是多余的。随着越来越多的企业和政府机构将数据上云,即便只是一个小小的宕机都可能引发很大的灾难。即便是号称提供 99.9% 可靠性的亚马逊云,那 0.1% 的宕机还是发生了。更有甚者,像腾讯云这样大规模丢失用户数据的情况,在当前多副本分布式署存储的技术背景下,简直是无法想象的事情。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

对于企业这些网络数据的安全需求,IPFS分布式存储技术将会是最完美的解决方案。

IPFS是践行分布式存储技术伟大的引领者,是一个具有区块链技术特征的分布式数据系统。建立在去中心化的分布式网络上的IPFS很难被中心化管理和限制,也能最大程度上减少中心化故障带来的风险,从而恢复人们的网络自由,使互联网更加开放和安全。如果IPFS得以普及,节点数能够达到一定规模,即使每个节点只存放一点点内容,所累计的空间、带宽和可靠性也远超目前互联网能提供的。而随之而来的分布式Web将会变成地球上最快、最可靠、最大的数据仓库。IPFS分布式存储为互联网安全带来了福音,也为人们的个人信息安全保驾护航!

版权信息
作者:18170979365
来源:18170979365

关于我们

联系我们

作者进驻

手机版

Copyright © 2013 比特巴 www.btb8.com
始建于2013年,提供比特币 区块链及数字货币新闻、技术教程、测评、项目周报、人物等资讯
本页面提供的是IPFS新闻资讯,星际文件系统IPFS(Filecoin)目标是为了补充甚至是取代目前统治互联网的超文本传输协议(HTTP)。