中国的基础网络环境之复杂堪居世界各国之首,随着视频、直播、游戏、语音、电商等流量大、用户体验要求高、用户分布地域广的互联网应用场景,以单点安排方式早已无法满足业务的需求,分布式应用安排方式已经成为保障业务高可用的一定之选。随之而来的可用性监控成为分布式系统的一大难题。
以某顶级IDC办事商同时也是国内最大的第三方独立数据中心运营商为例,该办事商将全国的数据中心划分为三个层次,即以北上广等核心城市为核心层,以互联网大省、骨干城市为骨干层,以二三级城市为边沿层。其客户按照应用等级及用户分布区域,,通过在全国范围的科学选点,将应用别离安排在差别层级的城市数据中心,以降低总安排成本,提升用户体验,同时在自身IT运维和客户办事保障过程中积累了丰富的分布式系统高可用监控经验。 简单易用的内部应用系统监控 众所周知,当企业安排了分布式系统,IT设备数量和系统规模就会呈几何级数迅速增长,运维部门规模往往落后于系统增速,而原有单点监控系统的转型并非易事。下面就以这家IDC办事商为例,从内、外两个维度探讨一下高可用IT监控系统的建设。 在内网监控方面,注重的是内部IT设备的可用性。运维部门陆续使用过Smokeping,Open-falcon,cacti之类监控系统,最终都不了了之:Smokeping依赖的包、组件过多,安置搭建配置繁琐,图形参数较多,需要查阅大量文档; Open-falcon安排测试了0.2. 0 版本,虽然机制不错,但易用性有待提高;cacti 主要用于收集历史数据和画图,但在监视大量办事器上跑的办事是否正常、告警方面,虽有插件支持,但效果很不抱负。
之后,运维部门选择了入门容易、上手简单、开源免费的Zabbix。Zabbix易于办理和配置,减轻日常办理的工作量,丰富的数据采集方式和API接口可以让用户灵活进行数据采集,而分布式系统架构可以支持监控更多的IT设备。 通过Zabbix监控大网出口对全国ping延迟的综合汇总页面:
用Grafana简单包装一下,可以看到办事器的详细运行数据:
表里兼修的外网高可用监控 云计算、虚拟化技术的广泛应用,分布式系统的后端IT设备和办事的不变性逐步提高,而复杂的用户网络接入环境、IDC机房链路、CDN加速等环节对业务质量的影响越来越大。很多时候,造成用户体验欠安和办事不成用的原因都是外部的,而这是安排在IT系统内部的Zabbix无法监控的。
因此,运维部门需要一套更准确、更全面的入向监控(外部监控)来保障业务的高可用。监控宝是享誉国内运维圈的IT性能监控神器,通过覆盖全国所有省份和世界主要国家的 300 多个分布式监测节点,对外部网络链路进行不变性和可用性的实时监控和秒级告警办事。监控宝支持http/https、ping、udp、tcp、smtp、traceroute等主流数据传输协议,能够准确测量链路质量、CDN效果及DNS状态,为企业的互联网业务进行全网、全地域性能趋势分析。
监控宝除了网站监控外,还包罗办事器监控、API监控、中间件和数据库监控,无需安排,无任何侵入式插件,即可获得第一手全面实时的监控数据。同时,监控宝覆盖最全面的告警通知方式,包孕邮件、短信、电话语音、App Push、URL回调等。并且,监控宝按照每月监测数据,出具权威的第三方SLA证书,帮手企业对CDN质量、云办事质量和业务质量进行有效评估。