高德地图商户标注是怎么做到让林志玲、郭德纲为你指路的?
AI电话机器人免费使用 加微信:veteran88
防封电销卡免费获取 加微信:veteran0003
各大技能供给商更多的是在研讨怎么进步组成音的表现力,特别是口气和情感方面,很典型的事例产品高德地图商户标注的就是高德用林志玲和郭德纲的声响播报路况。
语音组成也叫文语转换(Text-To-Speech),简称TTS,简略了解就是让机器说人话。组成技能的作用有四个考量维度:表现力、音质、复杂度和天然度。现在的技能演进,天然度和音质都有了显着进步,各大技能供给商更多的是在研讨怎么进步组成音的表现力,特别是口气和情感方面,很典型的事例产品高德地图商户标注的就是高德用林志玲和郭德纲的声响播报路况。
那么一条音频是怎么组成出来的?这个进程包含了两个进程:首要是制造语音库,然后是运用语音库将文本变成音频的进程。
制造语料库需求录制用户数小时的干声,对录音展开数据标示,再进行特征练习和技能优化,才能使韵律、音色、音质及天然度愈加靠近,让组成的声响愈加天然、流畅。以高德地图标注中林志玲的导航声响为例,在开端组成之前,首要是请志玲姐姐录了一些音频。这些音频不是随意说说就可以的,科大讯飞研讨团队为林志玲做了特别规划——除了规划均衡的发音组合、长短句子外,还专门为表现她的娃娃音增添了口气词,并结合导航使用做了倾向规划。所以能用最短的语料做出最好的作用。
之后就是把文本组成成语音。输入文本后,首要需求依照词典规矩对文本进行言语处理,比如模拟人对天然言语的了解进程,包含文本规整、词的切分、语法语义剖析,使计算机对输入的文本能完全了解,并给出后续进程所需求的各种发音提示。然后是韵律处理,就是为组成语音规划出音段特征,如音高、音长和音强等,使组成语音能正确表达语意,听起来愈加天然。最终依据前两部分处理结果的要求输出语音,即组成语音。
未来不仅仅是明星,身边的全部声响理论上皆可组成。
而语音组成技能的使用规模也很广。轿车导航内嵌的语音体系、智能手机语音助手、读书软件等等,这些使用的实现都离不开语音组成,时下热门的AR、机器人、可穿戴设备等也为语音组成技能落地供给了更宽广的商场。