【编者按】
在企业上云成主流趋势的今天,上云的风险备受关注,云服务器若宕机一分钟都会给企业的业务带来不可估量的损失。前段时间,微软Azure圣安东尼奥数据中心被雷击中,引发故障,系统中断超过24小时。再一次证明,跨AZ(Availability Zones:可用区)高可用,建立容灾备份机制,是每个企业上云所要关注的重点之一。
微软Azure被雷击 服务中断超24小时据媒体报道,2018年9月4日,微软在美国中南部地区的圣安东尼奥数据中心由于雷电天气影响导致电压激增,数据中心的冷却系统发生故障。为保证数据和硬件完整性,数据中心的自动化措施强制关闭了系统电源以防止机器因过热造成损坏。
这一事故引发了 Azure 中断,Office 365 以及 Azure Active Directory 服务都受到影响,并且恢复相关存储服务经历了很长时间。
故障从9月4日上午 9 点(北京时间 9 月 4 日 17:00)左右开始出现问题,到9月5日 13点左右(北京时间9月5日21:00左右),微软大多数受影响服务的存储可用性已经恢复,整个故障中断时间超过 24 小时。
虽然Azure Support 将事故称为“网络问题”,并表示中断只会影响美国中南部的客户,但是很多用户表示中断已经影响了包括西欧、亚洲在内的其他地区。
Azure Support 在对用户的回复中澄清了为什么其他地区会受到影响:“在某种程度上,我们所有的数据中心都是相互联系的。因此,如果一个数据中心出现故障,它将转移到其他数据中心。此外,在欧洲的客户可能会在受影响的数据中心托管一些资源。”
包括 Office 365 和 VSTS (Visual Studio Team Services)在内的近 40 个 Azure 服务受到影响。
9月5日,Azure 状态更新中表示,工程师正在优先恢复存储资源,以便恢复依赖于这些受影响资源的所有服务,但是恢复过程需要一段时间。到北京时间9月5 日晚 9 点左右,大多数受影响的服务已经恢复。
到底应该怎么上云?
此次 Azure 服务中断时间长,影响较大,又引发了大家对上云风险的讨论。讨论中出现了这样的疑惑:区域性中断应该不会拖垮那么多服务,地理冗余在哪里?
虽然很多细节都围绕在具体是哪里的冷却系统发生了故障,但Azure的这次服务中断也让大家认识到AZ(可用区)的重要性。AZ能让使用云服务的用户在给定云计算区域内的几个独立建筑周围分散工作量,以期避免单个数据中心会带来的问题。
上云必须要防止这些基础设施问题,即使 99%的SLA(等级服务协议)也意味着一年 365 天大约可以有 4 天不在线。所以很多公司会提到 99.9% 和 99.99%。当以年为单位来看,小数点后面的位数也不可小觑。
公有云提供的高度冗余意味着公司需要在全国各地拥有为站点提供服务并充当备份的数据中心。公有云应当建立自己的容灾备份机制,那么,作为公有云的落地实践,行业云又该如何保证跨区高可用,为企业提供稳定可靠的服务呢?
呼叫中心云服务如何跨可用区呼叫中心云服务,是云计算在呼叫中心行业的应用与实践。作为呼叫中心云服务的引领者,巨人网络通讯呼叫中心云服务以“双活分区”“双云互备”的模式来保证系统跨区高可用。
把系统同时部署在云服务商的A区和B区,并且在AB区设有多个机房,任何一个机房出现问题,对云服务的正常运营是没有影响的。而我们选择云服务商的前提是,所提供的组件本身就是跨AZ高可用的。因为只有云厂商为你提供的基础资源高可用,才能让业务的跨AZ变得简单。
只在一个云上做双活分区还不够!巨人网络通讯采用两个云厂商,以双云互备的形式为高可用再加一层防护网,可以为客户在不同的云平台开通独立账号,同时使用。双云互相切换的时间控制在1分钟以内,并保证云服务商和我们的核心机房之间是两条专线直连,如果遇到其中任何一条被挖掘机挖掉的情况,业务可以自动切换到另一条,也就是我们常说的“物理双链路、设备双冗余”。
通过双活分区、双云互备的模式,即便是出现自然灾害或人为失误的极端情况,也能保证客户系统正常使用。
(文章转载于天润融通)