锤子科技2016年新品发布会的日子,由于此前锤子科技屡被传倒闭或被收购的消息,再加上被媒体戏称为罗永浩单口相声的谢幕演出而备受关注。不过,让人万万想不到的是,由于罗永浩在新品手机发布会上的大力推介,智能语音却突然火了,火爆程度甚至超过了人们对于锤子科技新品手机M1和M1L的关注,很多人纷纷下载语音输入法进行尝鲜体验,并引发智能语音究竟哪家强的讨论。那么,智能语音技术在当下到底是怎样的水平?谁又是行业里真正的领头羊?东楼不妨来分析解读一下:
语音识别准确率:搜狗与讯飞平分秋色
实际上,尽管罗永浩这次在发布会上演示让人们对于智能语音的认知度大大提升,但实际上,智能识别语音并转化为文字输入的语音识别技术并不是讯飞专为锤子手机打造的独有黑科技。在智能语音这项人工智能技术上,除了讯飞之外,包括搜狗地图标注、百度等互联网公司也多有投入并已经取得一定的成功。并且,在锤子新品发布会之前,搜狗、讯飞等厂商的智能语音系统的识别准确率已经达到了一个空前的高度。
就在今年7月,在极客公园举办的奇点·创新者峰会上,搜狗CEO王小川就利用搜狗公司的语音识别技术,在演讲现场将其演讲内容实时生成了滚动字幕显示,目测准确率高达95%以上。而根据搜狗官方最新数据显示,通用语音识别准确率高达97%。而在今年两会期间,作为全国人大代表,科大讯飞股份有限公司董事长刘庆峰接受新华社记者专访时表示,讯飞听见智能语音系统,现场实测识别率达95%。
因此,如果双方透露的信息属实,那么目前双方在在线语音识别率方面应该基本上处于平分秋色的状态。而根据视频测试平台ZEALER的对于搜狗、百度、讯飞等语音识别功能的在线测评也显示,几家不相伯仲,搜狗的语音识别准确率方面不分伯仲,但搜狗在识别速度方面要略高于讯飞、百度等竞争对手。
智能语音的进化:海量用户和数据是基础
不过,尽管通过罗永浩的演示,让很多人现在才知道智能语音原来已经强大到如此程度,但实际上搜狗、讯飞等这两家作为目前语音识别率最高的厂商,之所以能够达到现在这个水平高度,无一例外都是依靠较早的布局和长期的投入。
在此之前,讯飞智能语音系统方面有多达四五年的投入,而搜狗在智能语音方面的技术积累甚至还要更早,这得益于其在输入法市场上强势渗透以及庞大的用户规模,搜狗在智能语音方面识别率提升非常之快。而搜狗之所以能够在过去的一段时间里,在语音识别率方面一直处于前列,恰恰就是其在输入法、地图等需要大量调动语音识别功能进行的应用加速了其在技术方面的成熟。
我们知道,智能语音作为人工智能的一种,同样需要依赖大量的数据进行机器学习,只有拥有海量的语料才能够越来越智慧和聪明。而根据比达咨询发布了《2016年第2季度中国第三方手机输入法市场研究报告》显示,在2016年第二季度中国手机输入法市场中,搜狗输入法以70.4%的市场份额继续保持领先,并在月活跃用户数上,以2.7亿用户的优势排名第一。另据统计显示,搜狗输入法每天语音输入频次近1.8亿次,而如此频繁的语音输入操作为搜狗的智能语音系统提供了海量的语料数据,从而使得机器不断学习,识别也越来越精准,而这正是目前搜狗在智能语音识别方面能够持续进化和领先的一个重要原因。
应用场景是否丰富决定智能语音的真正成就?
另一方面,我们知道,虽然由于罗永浩在锤子手机新品发布会上的推荐,让智能语音应用迅速成为热门,尤其是为讯飞输入法瞬时间带来了不少的下载量,甚至还间接带动了人们在搜狗输入法、搜狗地图等应用上对搜狗语音的使用和活跃。但是,很多人只是抱着尝鲜的想法使用讯飞或搜狗语音,并不是真实的应用场景下的正常驱动,更多的人还是将语音识别技术作为一个好玩的小游戏来进行测试,其目的只是为了测试语音输入的识别率究竟能够达到多高,因此最终能够有多少用户真正成为智能语音输入法的忠实用户让人留有疑问。
目前来看,人们对于智能语音识别转化文字这样的场景需求并没有想象的那么丰富。毕竟通过智能语音识别转化为文字的输入方式,并不是人们最为常用的沟通和聊天的方式,现在人们通过语音输入转化识别为文字,更多的还是一种写作或速记的需求,因此场景使用还稍显小众。而语音不仅仅承载着表达和沟通的作用,而且通过声音更是可以直接传递情感,而一旦语音转化成为文字内容再进行沟通交流也满足不了提高沟通效率的要求。而只有基于人与人之间的提高沟通效率的强烈需求时,智能语音市场才有可能真正爆发。
不过,智能语音作为集合机器学习、大数据、语音识别等技术的集大成者,随着识别越来越精准,应用场景的越来越丰富,成为下一代入口并不是不可能。而如何最大的程度的发挥智能语音这项人工智能领域的重要技术,以及如何运用其技术优势对未来进行战略布局就成为讯飞、搜狗等公司的重要课题。就在今年8月,基于智能语音技术,搜狗发布了不仅能听会说,还具有能理解会思考的能力的语音交互引擎技术—知音,率先展开了对智能语音使用场景方面的探索。
根据介绍,搜狗知音引擎不仅有高达97%的语音识别率,而且还支持用户直接用自然语言进行纠错,这使得其能够处理更加复杂的自然语言逻辑而且还可以进行多轮交互处理,并已经应用在包括搜狗输入法、搜狗搜索、搜狗地图等在内的搜狗全线产品当中,而这无疑对于智能语音的应用场景进行了极大的扩展。在这个过程中,智能语音的使用场景并不单一,而是在人们真正需要时才进行调动使用,而基于多轮交互技术,智能语音输入的优势也能真正得以发挥,这无疑能让智能语音技术真正为人们所用。
总体而言,无论如何,包括搜狗、讯飞等在内的所有智能语音厂商都应该感谢昨晚在老罗的锤子发布会发布会对语音输入的重点推介,这使得人们把语音输入作为输入习惯进行普及起到了一个很好的推动作用。而且,由于罗永浩这样的意见领袖的推荐,一方面使得更多的人开始尝试通过语音进行输入,能够显著加快人们对于语音输入的普及;另一方面,大量的潜在用户纷纷涌入到智能语音平台上进行语音的输入,这无疑将为这些智能语音系统积累更多的语料,促使智能语音技术进一步发展,最终使得搜狗、讯飞等在智能语音方面早有布局的厂商大为受益,领先优势继续扩大。