骨干网(Internet Backbone Network)是连接国与国、城市与城市之间的高速互联网络。如下图所示,它通过海缆和路缆,将分布在世界各地的数据中心连接起来,是互联网办事提供商和云计算办事提供商的重要基础设施,肩负着满足全球范围内网络数据通信需求的重任。
全球骨干网示意图
骨干网的角色如此重要,以至于与此有关的话题,常常会引起业界的关注和讨论。作为云计算的基础,国内的云计算办事提供商是如何运维本身的骨干网的?又是如何实现自动化运维的?有哪些值得分享、思考的经验和做法?作为一名从业 10 年的网络架构师,我向大家介绍一下金山云骨干网的现况,希望对大家有所帮手。
如何快速发现骨干网级别故障?
首先简要介绍一下建设进展。金山云目前在北京和上海两地之间租用专线搭建起了骨干网络,根据计划,本年金山云会在广州安排节点,将进一步扩大环网规模,搭建北上广骨干环网,大幅提升金山云公有云办事的网络质量SLA。
当然,这并不是说建设骨干环网后就不会出故障了,,对于互联网公司和云计算办事商来说,运营商的骨干网络故障是很让人头痛的,因为在通常情况下,这种故障会影响到多个省份用户网络的拜候质量。
例如, 2016 年 11 月 19 日晚 8 点,包孕华南、西南、华中等在内的国内多个地区,超过 10 个省份的用户,在拜候华北地区的办事节点时,均出现了问题。测试结果显示,ICMP丢包率高达30%,延迟增大了约100ms,这种级另外丢包率和延迟情况,如果不及时处理,将导致用户的业务严重受损。
那么,对于这种骨干网级另外故障,云办事商能否做到快速发现定位呢?当然是可以的。
金山云的做法是,通过自研开源监控的方式,研发出办事于金山云整个骨干网的网络质量监控系统(Netbench)。
金山云网络质量监控系统监控图
如上图所示,金山云的这套系统支持多地区、多ISP监控,可在运营商发生骨干网故障时,快速发现并准确定位故障,同时采用电子地图这种直不雅观形式,显示出各省份各地级市的网络质量(延迟、丢包等数据),如果某地出现问题,地图上相应位置的颜色就会变得差别。
金山云网络质量监控系统架构图
金山云这套网络质量监控系统的主要特点,分为定位策略、主要功能、应用场景三部分:
一、定位策略
抓取拜候客户办事的用户IP作为监控目的IP;
多对多的监控模式,多个源IP监控全国各个省市的用户IP(保证数据的准确性制止路由ecmp不均匀的问题);
通过对抓取到的IP进行筛选,排除掉一些不准确的IP,最终筛选出每省份数百个有效IP进行监控;
商用的IP地址库与BGP IP结合对抓取到的IP进行区分(ISP、省、市等);
Master-Slave的安排模式,监控周期可精确到分钟级(每 1 分钟)。
二、主要功能
提供短信、微信、邮件告警;
提供故障时的MTR数据(平均每省份多个MTR),可帮手判断loss节点;
提供柱状图、历史数据展示等功能,可追溯故障,查看故障时的丢包以及延迟情况;
可针对重要的IP进行指定监控。
三、应用场景
可覆盖CDN、静态、BGP等多网络类型;
目前可针对EIP(计算)、KS3(存储)、KLS(视频)等业务类型进行监控。
骨干网调度架构图
如何快速解决骨干网级别故障?
对于骨干网级另外故障,除了需要快速发现,更需要快速解决。
有些互联网和云计算办事提供商,会通过多线BGP切换故障ISP流量至其他的ISP的方式绕开故障点,由于我国南北互通问题,跨网拜候的质量很差,丢包和延迟都无法保证,并且在跨网切换时,会有较长时间的路由收敛,导致客户长连接业务中断。
金山云制止了这些问题。因为金山云的自建骨干网络拥有支持跨区域调度能力,当出现故障时,能够通过骨干网跨地区调度故障运营商流量,这种调度只是在同ISP差别地区之间的调度,只增加地区间的延迟,对整体丢包并无影响,这样一来,整体办事质量就得到了保障,同ISP内的路由切换收敛时间,可保证用户无感知,在近几次运营商南北骨干网故障中,金山云均做到了故障的快速调度恢复,客户也不必再因为运营商骨干网的故障而头疼了。
骨干网络调度前后对比图