获取高品质、可用资料是影响人工智能发展的一个重要因素。即使人工智能正享受着聚光灯下的时刻,大数据领域内的创新对人工智能技术的持续发展变得比以往更加重要。
第三阶段人工智能中的资料完整性
人工智能发展的历程可以分为三个阶段。第一阶段人工智能的特点是优化和知识工程程式,它帮现实世界的问题找到了有效的解决方案。第二阶段人工智能的特点是机器学习程式,立基于统计概率的自动模式识别。现在,我们已经进入了人工智能的第三阶段:假设生成程式,或称上下文正常化。第三阶段人工智能程式有能力检查巨大的资料集,识别统计模式,并创建解释模式存在的演算法。
近年来,人工智能专案在复杂资料集的分析能力上有了长足的进步,并产生了新的洞察力--甚至是那些跳脱人类分析家的洞察力。当IBM机器人「华生」(Watson)在美国电视益智问答节目「Jeopardy!」击败人类竞争者时,它使用了先进的自然语言处理和广泛的常识。
制药公司,如娇生公司和默克药厂已经开始投资在类似于第三阶段的AI技术,以获得超越竞争对手的优势。制药公司采用这种技术已有重大发现,如雷诺氏病患与鱼油之间的关系。人工智能还有可能透过减少昂贵和耗时的错误,戏剧化地加速药物开发过程。
当然,AI也遭受了几次高度公开的失败。许多这些失败的原因,如IBM「华生」和休斯敦安德森癌症研究中心(MD Anderson Cancer Center),在人工智能领域是一个相当突出的问题:资料集的完整性。在华生的案例中,当安德森癌症研究中心改变其电子病历软体系统,华生就无法与新资料库互动,需要额外整合才有办法运作。
全要靠资料
如果不能获取可进行分析和产生洞察力所需的资料,那么无论人工智能和机器学习演算法再怎么进步也是于事无补的。
由于生物资料集的深度、密度和多样性等因素,使得生命科学资料集是众所周知的不足且难以处理。因此,生物研究在很大程度上须依赖手工策划的资料集,必须创建和清理,以测试人工设想的假说。在这一高度手动的过程中所涉及的工作提高了研究成本和生物医学产品的成本,如疫苗和生物技术。这一过程的耗时性意味着在学术期刊上发表结论时它们可能已经过时了。
在这种缓慢、低效和容易出错的方式下创建和分析生物资料集,研究人员无意中造成了一个巨大的问题,即出版物的偏差和医学资料的不精确性。
有偏见和有缺陷的资料集是第一和第二阶段AI程式的一个问题,但是第三阶段AI软体受这些限制的影响最大。例如,在医学术语中缩写的问题。一个缩写经常有各种各样的意思-Ca,根据它的上下文,可能意味癌症或钙。第三阶段AI程式依赖复杂的上下文资讯来执行,而杂乱的、手工策划的资料集降低了这些程式的有效性。
资料的改变
美国国会甫于今年(2009年)2月所通过的「经济与临床健康资讯科技法」(The Health Information Technology for Economic and Clinical Health Act, HITECH)开创了无处不在的电子病历系统的时代。因此,现在有了丰富的资料集,包含即时、全面的生物资讯。这些新的资料集正在与生物专利、临床试验、立法机构、学术论文以及创新生态系统中的其他来源一起结合,以创造复杂的生物资料池。
直到最近,由于人类在很大程度上的努力清理和组织资料使得这种大量的非结构化资料才对计算程式有用。但现在,AI现在已经进步到足以使用先进的演算法分析异构资料并结合机器学习、自然语言处理和先进的文本分析。我们已经从一个过时的、不完整的、不可获取的资料世界进入了一个新的模式,AI可以构造以前非结构化的资料来进行即时分析和上下文正常化。
第三阶段AI为我们提供了干净、集中的资料,反映了生物系统的复杂性。透过分析这些资料,我们可以深入了解当前的生物医学环境。