我们每天的出行都离不开地图,可我们了解地图如何还原一个个真实的场景吗,他又是怎么面对现实中建筑的变化?百度商铺信息标注在地图上内容生态总经理——刘斌用深入浅出的语言为大家介绍了背后的技术原理。以下是演讲的精华内容,分享给大家。
今天有很多人是拿地图来到极客公园的演讲现场。大家手机里装的地图,绝大多数都是把各个图层压制起来的。
我们的地图有 POI 的数据、道路的数据、绿地、楼块等等各种各样我们能看到的信息。这些信息,现在都是通过同一个坐标系联系起来,通过相同的坐标系,把道路、点和楼块都压制到一块。用一个比较形象的比喻,它有点像我们经常用的 PhotoShop,PhotoShop 里面能看到各种各样的图层。道路的图层、卫星的图层,实际上这些图层之间,并没有产生一个特别明确的联系。
那么,我们希望在接下来地图的升维中,让所有图层之间有某种方面的联系。
除此之外,我们的地图现在目前给大家呈现的是文字、图片,这些信息我们认为是比较能够帮助大家去理解的信息,但还有没有更好的方式让大家认识到真实的世界?
百度地图认为真实场景的展示和人工智能的交互是接下来百度地图升维的重要手段,真实场景的升维并不仅仅是简单地将 2D 升级为 3D,而是让我们的信息更加准确,看地图的时候得到的信息更加丰富。
如何展示真实的场景
在上个月,百度地图发布了 3D 地图这款产品,这个技术现在已经比较成熟了,也就是说我们现在拿着无人机就可以把我们所要采集的区域,用 360 度摄影的方式拍摄得特别清楚。
同一个区域拍摄 5 次就可以得到这个区域比较详细的影像资料,再把这些影像资料按照 3D 重建给他们,建立成我们能看的比较精细的场景,这是我们能够看到的二维世界拉成三维的方式。
用无人机的方法去采集我们要建立模型的区域,其实是一个比较成熟的技术。但是目前受制于无人机的续航能力,我们能采集的区域很有限,这和我们无人机的滞空时间是非常相关的。
虽然我们可以采用一些更先进的、飞行时间更长的固定翼飞机,拍摄更大的区域面积,以及我们可以把无人机从单架的无人机,升级成一个无人机蜂群的集群系统,去采集更大的面积。但是中国是一个幅员辽阔的国家,我们要靠所有无人机把所有城市的景点、写字楼、街道采集完整,基本上是一个不可能完成的任务。
那么,我们怎么能够用一些更好的手段或者用我们已经拿到的数据、库存里的数据更好地做 3D 重建工作?实际上百度地图有全新的方法。
百度地图现在有一款产品是我们国内独一无二的,就是我们的街景数据。我们全国有很多采集车,在 24 小时去道路上采集我们的全景数据。
我们积累了从 2014 年到 2016 年三年的数据,就能够知道我们在全国的道路上面其实覆盖了非常多,再加上百度的搜索引擎的能力和我们用户每天不停上传的新图片,我们在同一片区域里面就能积累非常多的图片资料。
那么,根据这些图片资料,我们就能够比较方便的去建立起这片区域的 3D 模型,这些数据我们认为是百度地图独一无二的优势,包括我们的全景数据、用户上传的数据和我们的街景采集的数据,我们把这些数据叠加起来以后,就可以全自动化地生产街道和用户关心区域的模型。
所以大致的过程就是分成三个步骤。
第一,通过图片识别需检索我们要去建立模型所在区域的特征。从我们百度庞大的图片库里面把这些图片的特征检测出来。第二,通过我们的深度学习和机器运算的方法,能够把一些特征进行拼接、建模。
最后是一个 3D 的重建。关于这项技术,我们在 2015 年底,跟尼泊尔政府有一项合作,因为 2015 年尼泊尔经历了一次非常大的地震,当时尼泊尔非常多的文物在地震当时就毁掉了。我们希望借助于这些技术,能把之前关于这些文物建筑的一些照片给拼接成 3D 模型,让大家知道原来在尼泊尔的这些位置是有一些文物古建筑的。
经过我们一到两年的数据发展,以及我们图片数据的积累,我们觉得我们现在有这种能力,把国内所有街道和重点国家的城市,用我们现在有的数据,把 3D 模型重新建立起来。
结合人工智能的交互
除此以外,我们百度地图和百度大脑的明星产品——「度秘机器人」,做了一个紧密的结合,我们现在在地图上不仅可以用语音预定酒店、餐馆,而且地图会知道你的喜好,你经常去哪些地方,来做一些智能的推荐。
地图知道你所在的区域可能比较难停车,就可能不给你规划一些开车的路线,反而给你规划一些地铁、公交和打车的路线。
我理解的人工智能,百度大脑,其实在跟百度地图结合的时候,分成左脑和右脑。对于右脑而言,我们是不停地全网络的内容输入,包括道路的信息、商店的信息、你的喜好信息等,都可以作为一种信息录入到人工智能的大脑里面。
左脑去连接你的需求,预测你的出行习惯,还有你和目的地的行为特征。这两个部分结合起来,就能够更好的让地图去理解你的需求,把输入的内容和需求结合起来。这就是我们「度秘」的智能交互在整个百度地图的应用。
借助人工智能及时更新现实世界
大家知道地图是一款活的产品,并不是我们把北京市或者是全国各地数据采集完,这个地图就可以不更新了,地图每天、每时、每刻都在发生不停地更新,相比于原来的更新手段,我们借助人工智能的方法能够得到更快速、更少人工参与和更智能化的更新方式。
这其中,有个很重要的事物,给大家介绍一下: Foundation Object,简单翻译过来,可以理解为基础地物。
真实世界中,大家都知道,商店和写字楼中有非常多的 POI,POI 的变化是每天都在发生的。但是反过来,这些 POI 所在的基础地物是比较稳固的,有可能几年、几十年不发生变化,甚至上百年,这些基础地物都会矗立在这个位置,成为我们可以挂接 POI 的载体。
这些基础地物,我们认为有 3 个特征:
最小单位的建筑集合。我们所在的大罐儿可以作为一个基础地物,整个 798 街区也可以作为一个基础地物。而且,基础地物和基础地物之间是有关系的。
基础地物是地图比较稳定的表达,因为它的变化概率比较小。
基础地物的制作成本是比较高的。刚才我们说过了,依赖于我们现在已经有的 3D 重建技术,我们可以快速、方便、低成本的生产这些基础地物。
有的同学可能会问,基础地物对于地图建立基础地物而言有什么作用?举个例子,一些人开了一些店铺,真实世界中会发生一个行为叫做店铺搬迁。很有可能,店铺经营了一段时间之后,规模发生了扩大,用来招揽更多的顾客。而在地图里,是从 A 点搬到了 B 点,店铺往北偏移了 300 米。这是人类非常容易理解的语言,如何把它表述在地图上?
往北偏移了 300 米,到底是北偏西还是北偏东?北偏东 15 度还是 16 度?在地图上标注搬迁这个行为的时候,我们不得不通过一些人工的方式进行介入。比如我们通过打电话,告诉百度地图店铺进行了搬迁,那么我们的人工客服人员会电话跟你核实搬到了什么位置,这个位置周围有什么东西。但经常会发现,工作人员对你所在的地方并不了解,他们能看到的是地图上已经存在的这些点,比如你是不是临近肯德基,你旁边有什么样的标志性建筑,其实用语言表述起来是非常麻烦的,而且我们不一定能够非常准确地把店铺的点更新到。
有了基础地物这个事物之后,可以很清楚地知道,店铺是从 A 建筑的 B 座搬到了 C 建筑的 X 座,这是一个特别清楚的搬迁行为。因为,基础地物的相对位置,我们可以确定它的唯一性。
怎么去确定一个基础地物的唯一性呢?可能大家容易想到的第一点就是坐标,一个基础地物可能在一个区域里坐标是一定的。但这里有几个问题:
1、任何一个建筑都不只是一个点的坐标,而是一个面积。在这个面积中,实际包含的区域是非常大的,在这个面积里可以开非常多的店,每个店可以理解为一个一个的小格子,在这些格子里面的挪动,包括相对位置是不是准确,需要在我们的基础地物上进行数据的表达。
2、地址、门址,因为我们参考了一些国家民政部对于门址有比较明确的规范,但很不幸的是,还是因为中国幅员特别辽阔,每个地方对于门址的实施程度是不一样的。我们很多小城市,包括大城市也有这种问题,我并不知道这个建筑物是几门几号,也不知道你的门址排序起来有什么规律。我现在是 9 号,不一定旁边就是 8 号。门址的规范性,现在在国内还有待加强。
那我们用什么样的方法,来标识我们唯一的基础地物,方便我们的数据生产?
我们希望机器越来越智能化,跟人类的认知物体的方式是一样的。通过一些图片,或者图片的特征,能够标识出来这个基础地物的全貌是什么。我们结合现在地图上能拿到的地理位置信息,就能够知道你所在的位置,或者局部的图片标识了哪个建筑。
我们能拿到一个建筑的局部,结合它的位置,就可以知道它代表了哪个建筑物。
这些能力的建设,会有助于我们把互联网上已经存在的所有图片的建筑,能够收录到我们的库里面。并且,会带来在基础地物上进行 POI 挂接的一个革命性更新。
其次,真实世界每天都在变化。我们沿街的店面,随时都有可能关闭、搬迁、更名、换老板,所有这些真实发生的变化,会有非常多的途径,而且越来越多的途径,能用互联网公开的数据,或者我们有一些 UGC 的数据,取得这些变化。
我们可以通过刚才说过的基础地物图片编码的方式,定位到现在这个位置,而且能定位到你这个店,比如发生了一个更名。以往,地图在看到这些变化的时候,只能通过人眼识别,我们人工更新成一个新店。这个过程,每天在中国发生几十万次,而且现在每个店的生命周期,相对来说都没那么长,尤其国内发展又比较快。
这个时候,如果每天发生的变化都依靠人工去处理,将是非常大的成本。而且,我们索引新店的速度会非常慢。
我们在拿到这些图片之后,借助基础地物图片编码的方法,就能自动识别出在这个位置发生变更的店铺,并且能通过图片识别的技术,知道变更之后的店名。
这将带来非常大的地图数据更新革命,以后在用户拍一条街的时候,有可能已经给地图贡献了一个更新的信息。而且,每天我们有很多采集车在全国各地道路上进行采集。
我们把一条街扫完,就能知道这条街跟之前的变化是什么,我们可以用基础地物编码的方式看出,这个楼里面的某个店是发生了变更的,或者发生了停业,或者关门的。这些变化,能够带来地图成本的降低,以及效率的提升。
总结
结合刚才讲过的,我们希望借助地图的升维,借助人工智能,能够给地图提供更真实的世界,能够让地图更快速的反映这个世界,而且提供更人工智能的交互,把我们的内容以更人性化的方式表达出来。
另外,我们希望通过生产地图数据的方法,以更拟人化的方式,感知外界的变化,而且能用自动化的方式,把这些变化生产到地图上去,带来一些更快和更低成本的变化。
综合来讲,我们还是希望从我们自己做起,把地图从出行的工具,进化成一个决策的平台,能够让大家更可能地节省时间,更快地反映真实世界的变化,能为所有用户提供更为优质的服务。