“实在不好意思,不能和你们聚会了。公司的一个系统瘫痪了,现在还找不到原因,整个IT部门都在进行‘尸检”一一排查,我马上要赶回公司。你们也知道,干我们这行的,这种事情多,没办法。”周未聚会上,刚在某传统行业世界500强公司当上IT主管的刘建军对朋友们抱歉地说。
当刘建军赶到公司现场时,上到公司老总,下到销售代表,都已经急得跳脚,货发不出去,款收不回来。刘建军除了安慰老总马上尽快搞定外,面对突发复杂的情况带来的压力,也有点慌乱,但他只能一边亲自逐步排查,一边拿起了抢修电话叫技术专家过来共策共力。
最终,问题在凌晨2点时,得到了排除,原因出在系统软硬件兼容性上,造成了系统崩溃,服务器宕机,从下午5点到凌晨2点,短短9个小时的时间,这次故障给公司带来了直接二百多万的订单损失,还不算间接影响。
问题解决后,凌晨3点公司主管IT系统的老总当即现场召集IT主管开会,对IT整个部门做出一系列严厉的行政处罚,并提出要求,类似的情况,要平时把好关,将故障率降到最低,整个公司的信息化管理销售全依赖这套系统,老总清楚IT信息化带来便利的同时,完全杜绝出现故障是不可能的,问题的关键在于故障前的细心维护,快速反应,快速解决,他责成刘建军在最短时间拿出一个根本性的解决方案出来。
会议结束后,刘建军压力很大,的确,在现有的IT运维服务模式下,他不得不总去拯救濒临死亡的IT系统,得充当救火队长到处灭火。企业赖以运转的IT系统一旦出现故障,不仅不能提高效率,而且还影响正常业务的开展。而作为肩负保证IT系统正常运行责任的IT部门,面对的是由各种网络、主机、系统软件、中间件、数据库、应用软件等等组成纷繁复杂的系统。处于救火状态的IT主管,刚处理完财务系统的故障,办公系统又罢工了。众多的软硬件耦合在一起,系统的复杂性和维护量呈指数级上升。要实现系统可持续运营,太难了!
时间回溯到事故发生前,另一家世界500强公司的IT主管王彬却显得轻松自在,下午他陪女朋友游完一个小时泳,然后到了晚餐时间参加部门同事组织BBQ烧烤大会,其间他手机收到一条公司IT系统故障告警短信,当他正准备结束聚会赶往公司抢修时,短信提示故障专家已经远程处理,系统恢复正常。经过王彬电话向公司值班同事确认,部门BBQ烧烤大会照常举行,大家一起度过了一个轻松愉快的周未,相比刘建军充当救火队长的水深火热,是什么样的系统让王彬如此游刃有余?
话题要从王彬不久前参加过的《网管员世界》杂志社举办的“2009中国网络主管论坛”说起,在众多国内外厂商演讲中,会议上王彬他注意到神州数码提出的一个全新理念,面对现有的复杂IT网络与系统环境,传统的被动式IT维护已经显得捉襟见肘,而目前,以ITIL理念为指导,以IT运维专家为载体的“主动式IT运维服务”正应运而生。
在被动式IT运维模式下,由于没有预警服务,故障隐患不断集聚,异常情况出现后,直接负责人不能即时发现,IT部门不得不成为处理大量突发事件的“救火员”,无法提高工作效率。
而对于神州数码易邦服务(www.ebond.com.cn)提出的主动式运维模式来讲,它是一套由独立软硬件相结合的运维服务平台,以监控、告警、日志、报告服务工具为依托,实时监控系统的运行状态,并与呼叫中心结合一体,针对维护服务范围中的IT系统,进行实时的监控,出现问题的同时可以进行实时告警,做到故障的主动式实时发现,并自动、及时提供故障诊断服务,若出现一些小的问题,在IT主管收到告警短信的同时,神州数码易邦服务运维专家就已经将故障隐患消灭于萌芽之中。
而当这套系统遇到一些特别复杂的情况远程无法处理时,神州数码易邦服务IT运维专家会根据客户承诺的时间及时赶到现场,进行快速的反应和处理,并提供备机和备件、大大的减少了客户故障恢复时间,为客户争分夺秒,减少损失。
最终王彬经过详细咨询易邦主动式IT运维服务的相关技术指标及内容,并根据公司自身需求征集各方IT专家论证后,该司正式启用神州数码主动式IT运维服务——易邦服务 ,我们发现,当企业应用了主动式的IT运维服务后,IT主管就可以经常给系统做‘体检’,从而实现长期的系统可持续运营,而不是在系统瘫痪后坐‘尸检’。
有了健康的IT系统,王彬不仅可以按时参加朋友聚会,而且不用担心因系统突发故障而临时被召回去救火。与此同时,公司信息化流程的稳定运行,业务运转越来越顺畅,大大提高了公司内部沟通的效率,公司的产品及服务在市场上的竞争力将越来越强,使公司在激烈的市场竞争中立于不败之地。