大数据权威专家麦尔荀伯格:比起问「Why」的因果关系,大数据更看重的是问「What」的相关性
近日美国大数据权威专家麦尔荀伯格分享了大数据趋势。他认为,大数据三大特性,是巨量、杂乱和相关性,而不是一般常见的3V(Volume、Velocity、Variety)定义。如何从这些看似杂乱无章的巨量资料中,找出最适合的相关性,并以此来改变决策,帮助我们更了解世界,正是企业和政府所面临的新挑战。
麦尔荀伯格早年曾是名程式设计师,年仅20岁就创立一家防毒软体公司,推出的防毒软体一度获选为澳洲年度畅销软体之一。他在哈佛大学攻读法律,并取得伦敦经济学院经济硕士,而後对於大数据领域有着深入且广泛的研究,曾发表过上百篇专论和书藉,现为牛津大学网际网路研究所教授,专攻网路治理与法规,并着有《Big Data》(台译:大数据)等着作。
麦尔荀伯格认为,经过搜集而来的大数据,往往具备有三大特性,第一就是拥有非常多的讯息量。
这边所指的「多」代表的是具有一定规模的完整资料,可透过蒐集分析发现具有相关性的问题或现象。他以过去相机对焦为例,一般只有在对焦范围内拍出来的人物轮廓才会清晰,但范围以外的人物轮廓往往会是模糊的,但是改用一台可先拍照後对焦的光场相机,就能先将所有人物资料完整纪录下来,之後在决定照片要以谁为主角,也不需要花费时间重拍,还可以获得更多有关照片的细节。麦尔荀伯格认为,尽可能蒐集越多的完整资料,也是同样的道理,手机妥了以后再进一步决定用途。
麦尔荀伯格提出的大数据第二个特性是杂乱。相较於过去受限於测量能力的限制,能取得的资料往往不多,因此会注重资料的精确性。但是,当面对的是杂乱且复杂的大数据时,就不能再以过去传统少量资料的方式去分析,而是要有新的作法。他说,大数据要求的并不是一点错都无法容忍接受的精确资料,更多时候反而容许有测量误差的资料,只要透过分析可以得出有用的资料,就不用为了那一两棵树而放弃一整座森林。
比起问why,大数据更看重的是问What相关性至於大数据第三个特性则是相关性,麦尔荀伯格解释,比起问「Why」的因果关系,大数据更看重的是问「What」的』相关性。「重要的是先了解,资料要告诉我们『什麽』而不是『为什麽」。他以美国知名零售商沃尔玛当例子,当他们在进行大数据分析时发现,每当飓风即将抵达前,当地居民除了上超市去买手电筒和电池之外,还会买了一堆被称为是Pop-Tarts的草莓甜点,这样的发现也替沃尔玛带来庞大商机,至於顾客为什麽会买这些甜点就不是那麽重要了。同样的道理,当亚马逊和Netflix 在推荐顾客产品时,同样也不知道为什麽要推荐这些书或DVD影片,只要知道顾客会买单就好。
另一个麦尔荀伯格举的例子是语言翻译。1950年代的美国电脑科学家,曾试图透过文法规则让机器大量翻译俄语资料,花了12年时间投入近数十亿美元,最终还是宣告失败。当时,IBM也在个人电脑加入更多语句和文法规则,并以此成功翻译了60个俄文短句,但因无法进行大量翻译也告失败,就算是在1990年时,IBM试图透过新开发的统计机器来翻译10年份的加拿大国会文件资料(含英法双语),尽管的确改善了机器翻译的品质,但最後因投入大笔资金却无法得到相应成果,只好退出放弃。
反观当时还是名不见经传的小公司Google,成立仅仅不到10年时间就完成了这项不可能任务,推出了翻译服务,而其采用的方式只不过就蒐集了几千亿笔的网路资料来分析,其中有包括欧盟语言、网站语言、书籍和说明手册等五花八门的资料,尽管这些资料品质参差不齐,但透过汇整分析却能翻译出更为精确的语句。
麦尔荀伯格举的最後一个例子则是早产儿诊断,Carolyn McGregor博士率领了安大略理工学院与IBM的研究人员,共同开发一套身体健康追踪系统,可以即时追纵早产儿的健康资料,包括像是心跳、呼吸、体温、血压等身体症状,并且每秒钟会回传1,260笔资料给医生。医生透过这套系统可经观察细微妈妈体内婴儿的身体变化,提早24小时前预测出是否为早产儿的可能性,以挽救更多的生命。後来Carolyn McGregor用大数据技术来分析这些资料後,还发现早产儿在严重感染前,反而生命迹象会有一段时间维持稳定,颠覆了过去一般认为早产而身体先恶化再感染的理论。倘若Carolyn McGregor只专注於研究身体恶化与感染间的因果关系,就无法得到这个发现。
从巨量机器假设找出最佳相关性
对统计学家来说,常见的研究流程是先有理论基础,接着是提出假设,最後再透过数据来验证,但在大数据上,麦尔荀伯格认为,原有研究流程变得不一样了。以Google的作法来说,同样都有一套理论基础,但Google却是透过程式自动建立了大量的机器假设(Machine Hypothesis),将所有可能的假设通通都放进来,再利用云端运算技术一次处理高达4.5亿个机械假设,从这些巨量的机器假设中找出最合理的相关性。
大数据核心价值:可重覆使用、重组资料,发现新价值
麦尔荀伯格更指出,大数据的核心价值,在於可以重覆地使用资料,而且是不断地重组可能的使用方式。他说,过去人们会因为特定目的而蒐集资料,但在大数据时代,很多时候并不知道这些资料是否还有其他用途,像是「先拍照後对焦」的光场相机,往往是透过对巨量资料交叉分析後,才对资料运用有了新发现。就像装在车上的感应器,除了可用来找出目前那一个地段最容易塞车,日本东京产业技术大学也曾在驾驶座位装入360颗感应器,来蒐集驾驶坐在驾驶座上的动作,只有符合登录臀部坐姿的驾驶才能发动车子,以此达到防盗功效。
又好比如说,Google曾经於2009年成功利用搜寻关键字来预测流感趋势,但後来预测却失准,麦尔荀伯格表示,最大原因就是没有考虑到现实及人类行为环节的改变。而刚推出的Google Glass眼镜,「其实Google真正的目的是要了解人们到底在看什麽?关心什麽?透过运用这些蒐集而来资料进一步去分析预测出消费者的行为。」他说。
荷兰手机公司藉由贩售天气数据,开创新的事业大数据不只可帮助企业内部决策,还可协助开创新事业。麦尔荀伯格以国外几个大数据应用成果作为例子,像在荷兰有一家手机公司面临了低价竞争而无法获利时,他们发现了自家所建造的基地台讯号,无形中会因周遭环境气候而改变,这个发现让他们反而可以贩售天气数据,转换跑道来开创新的事业。劳斯莱斯不只是汽车公司也是全球第二大的飞机引擎制造商,透过在大型客机内的喷射引擎,载入飞行管理系统来监控大量的引擎运转资料,加以分析後能预测出引擎的寿命,劳斯莱斯并以此来提供预测性的维修服务。
美国零售商Target则是另一个典型的大数据应用,Target搜集了大量女性顾客的购物行为,运用大数据分析找出各种相关性,像是他们分析後发现,女性在怀孕三个月的时候,会开始购买某一类产品或对特定品牌产生忠诚度,像是无香味的乳液或各类营养补充品。反推回来,当女性开始出现这个行为时,也可以用来预测出女性是否已有怀孕迹象,甚至还能因此准确预测出小孩出生的日期。
尽管透过分析演算,大数据可以用来改变决策的方式,创造出新的商业或经济价值,甚至可作为预测人类行为的强大工具,但麦尔荀伯格也提醒,使用这些资料必须很小心,切勿忘记人有自由意志,一旦过度依赖这些预测资料,一方面可能发生像是在《一九八四》小说中无所不在的老大哥(Big Brother)监控,造成对个人隐私的侵犯。也可能作出不公平的预测,发生了如电影关键报告中还未犯罪就遭到逮补的情节。
他说,如何善加利用大数据和使用工具,去帮助人们更了解这个世界,是政府和企业所面临的新挑战。