近来,Google的Ground Truth团队发布了一个新的深度学习模型,用于从带有地舆定位信息的图画文件中主动抽取信息,以改善Google地图效劳。该神经网络模型在对挑战性的FSNS(法国大街称号辨认数据集,French Street Name Signs)数据集处理上,给出了更高的准确性指标。来自Google Brain团队的Julian Ibarz和来自Ground Truth团队的Sujoy Banerjee在Google Research博客网站上撰文,介绍了处理实际国际图画中文本抽取疑问中所用的TensorFlow模型。
目前有十亿用户运用Google地图标注服务软件指路、获取实时交通状况和商户信息,要为这些用户供给非常好的体会,信息应有必要能反映了改变中的国际。当时,街景车(Street View Car)现已采集了800多亿张图画。要从这么大规模的图画数据会集为Google地图发现新的或者是发作更改的信息,人工剖析是不可能完成的。因此,从具有地舆定位信息的图画中主动地抽取结构化信息变成团队的工作方针之一。
现在,这一新的深度神经网络模型对开发人员揭露可用。它在从FSNS数据集街景图画中读取大街称号的使命上,达到了比其它深度神经网络更高的辨认率(84.2%)。可拓展该模型完成从街景图画中抽取其它类型的信息,例如从富含店面的图画中抽取出商户的称号。
在城市、道路和商户等天然环境中做文本辨认,这是一个具有挑战性的核算机视觉和机器学习疑问。失真、遮挡、方向含糊、杂乱布景或视角上的不同,这些要素使得从天然场景中抽取文本更具挑战性。从前在2008年,Google团队就运用了一个根据神经网络的模型,用于街景图画中行人脸部及车辆车牌的含糊化,完成对用户隐私的维护。以该研究为根底,他们已能运用机器学习主动地改善Google地图,完成了有关最新信息的更新。
深度学习模型还完成了如下使命的主动化:新街景图形库的标记、与命名标准共同的文本标准化处理,以及除掉与数据剖析无关的文本。团队无需知道大街的称号或是该地址的具体位置,就能够直接从图画创建新的地址。例如,假如街景车轿车行进在一条新建的道路上,该模型能够剖析所街景车捕获的图画,从中抽取大街的称号和门牌号码,并在Google地图的恰当处主动地创建并定位新地址。
要在大规模的街景图画数据集上使用这些模型,Ground Truth团队采用了机器学习芯片TPU(张量处理单元,Tensor Processing Unit),以下降指令流水线揣度(Inference)的核算代价。