业内皆知,作为人工智能领域发展最成熟,历史最悠远的分支之一,人脸识别有包孕LFW 和MegaFace在内的诸多国际级别赛事,而微软在去年提出的 MS-Celeb-1M 基准测试则被誉为人脸识别年度“世界杯”。就在比来,最新一届“世界杯”落下帷幕,更像是对“中美两国AI发展并驾齐驱”的某种印证,一家名为猎户星空的中国人工智能公司,在其中一个重要竞赛项目中夺得头魁。
考虑到赛事的权威性,在不少行外人眼中——在人工智能疾风骤雨般渗透进大众生活之前,上述结果委实有些不测。值得一提的是,借助计算机视觉领域顶级会议ICCV 2017的平台,本届竞赛既包孕大规模人脸识别竞赛(Hard Set 及 Random Set),还颇具新意地推出了更具挑战的小样本学习(Low-Shot Learning)竞赛,可谓近年来业内公认的含金量最高的同类赛事,这也自然招致全球各地人脸识别团队超强的“夺金”欲望,至今不满一岁的猎户星空获得了这项赛事识别子命题有限制类(只使用竞赛提供数据)第一名。
事实上,比来一周,这家初创企业出了不止一次风头。7月26日,传闻已久的小米AI音箱正式发布,后者采用360度远场语音控制,在提供在线内容的表层应用背后,这款音箱无疑承担了小米“智能家庭中枢”角色,是小米试图将整个生态链产品“连起来”的关键布局。而作为猎豹移动旗下人工智能子公司,猎户星空是小米AI音箱重要合作伙伴,为其提供了一套可以用“这个星球最温柔声音”回复用户的语音交互系统。
将时间轴拨回一个月前,他们还联合喜马拉雅同样发布了AI音箱“小雅”,背后技术核心同样是猎户星空全链路自研的远场语音交互系统——尽管踏上AI音箱“风口”的企业有先后之分,但当他们在寻觅语音交互这块最重要的长板时,猎户星空都是他们最值得仰仗的嫁接对象。
至少在现阶段,人工智能大概可分为语音识别,图像识别,语言理解和机器人等应用技术,其中语音识别和图像识别是目前相对成熟的领域,遍及准确率都超过90%,这也意味着再想要持续精进的难度,猎户星空能在短时间内一举拿下了人工智能两座已经很高的高地,在创业公司中确实比较罕见。
不久前,《纽约时报》在采访大量美国政府官员和硅谷精英后就得出结论:中国的人工智能将与美国齐头并进,中国已经诞生孕育人工智能温润的社会土壤。如果将这家中国初创企业的“世界杯”夺魁,搁置在中美AI竞赛的宏大配景,仔细分析这家公司,就显得意义不凡。
技术长板
先从微软的这次角逐谈起。
如前所述,猎户星空获得了这项赛事识别子命题有限制类(只使用竞赛提供数据)第一名。顾名思义,与更偏向于比拼数据的无限制类(无限制使用外部数据,数据越多训练模型当然越好)比拟,有限制类别只能在限定的数据集内调用,是比较纯粹的算法比拼,因为在限定数据情况下想达到最高精度非常困难,难度也更大——当然,正是由于这种限制性,有限制类的算法比拼也相对公平。
公平也意味着高门槛。竞赛数据噪声大,无法直接拿来训练,而整个训练数据集也很大,适合人脸模型大规模训练的模型对资源的要求又高,很难做到又快又好。于是经过探讨,猎户星空团队设计了一种鲁棒的去噪算法,可针对各类差别程度的噪声数据进行有效去噪,同时选择采用适合大规模训练的 triplet 模型,通过一种颇为巧妙的设计在有限资源下加速了triplet网络的训练,大大提升了性能,最终获得 0.75/0.606(random set/hard set)的高分——这一成绩远超以往记录,几乎达到了不使用外部数据的极限。
事实上,尽管成立时间不长,但团队成员过往的技术积淀让他们创立初就开始投身人脸识另外探索。参赛“世界杯”前,他们就在另一项人脸识别国际赛事 LFW 上取得了前三名。
而与不少初创团队醉心于“秀技术”差别,依托于猎豹移动强大的产品思维底座,他们深知一点:将技术蜕变为产品,从来都是检验技术成熟的唯一尺度。于是,猎户星空上述所有角逐技术都不会被搁浅在学术陈诉或者角逐赛场上,而会被运用到在门禁,机器人和移动 APP 等具体产品。举个例子,目前人脸识别技术就被用于猎豹旗下的直播产品 Live.me 中,后者每天产生超过 20 万小时的直播内容,运用图像识别技术可以进行 24 小时的实时监控,极大提高违规内容的审核效率。
让人温柔以待的音箱
谈及技术落地,猎户星空让人工智能音箱做到“像人类一样沟通”,或许是更好的例子。