又双叒叕一次夺冠了!
在刚刚结束的Blizzard Challenge 2019国际语音合成大赛中,科大讯飞与中科大语音及语言信息处理国家工程实验室联合提交的系统再度摘下多项指标第一。
自2006年参赛以来接连取得佳绩的讯飞,又拿下了这项堪称语音合成界最具权威性和影响力的国际赛事上的第十四个冠军。
值得一提的是,这也是科大讯飞最后一次参加该项比赛,未来将聚焦于探索语音合成应用的更高阶段。
关键指标创新高 这次是“最难”中文任务
据悉,此次比赛共有自然度、相似度、错误率三个评测项目。讯飞团队提交的参赛系统摘下自然度、相似度两项关键指标的第一;错误率指标取得第四。
值得关注的是,这是首次以中文作为Blizzard Challenge比赛主任务,并且以罗振宇脱口秀风格声音作为合成样本,以故事、百科、诗词等文本为合成形式,再加上英文混读、儿化音等偏门难点任务,此次评测堪称Blizzard Challenge“史上最难”任务!
极具挑战性的比赛吸引多达25家参赛队伍,打破了Blizzard Challenge历史上参赛队伍数量的历史记录。
在热烈的比赛氛围中,讯飞团队迎难而上,圆满完成了系统搭建,更是把合成系统的最关键指标自然度从去年的4.0MOS,提高到4.5MOS,创历史新高。什么概念呢,5分是新闻联播主持人的播音水平,4分代表普通大学生水平,4.0到4.5的提升就是“良好”到“优秀”质的提升。我们与罗振宇大大真人的录音只有0.2MOS的差距了!
我们期待在不久的将来,合成的语音能无限接近模仿目标的说话水平。
万物互联时代 语音通道正在链接你与A.I.
万物互联时代,语音无疑是人机交互最便捷、最重要的入口之一,科大讯飞正在成为这一重要入口的“通道建设者”。而语音合成技术,正是这一建设中不可或缺的力量。
在今年5月21日科大讯飞2019新品发布会上,董事长刘庆峰就表演了一场类似“柯南领夹”的A.I.变声秀:
刘庆峰一开口,现场传出来的却是“老罗”罗永浩的声音:“大家好,我是科大讯飞刘庆峰”,一时间刘罗难辨。
紧接着,他的声音又变成一把清亮女声——听上去是志玲姐姐的声音,但说话的语气节奏又和刘庆峰本人几乎一模一样。
基于科大讯飞语音合成技术,实实在在的应用案例不断落地,更多应用场景正在构建。今年3月正式上岗的多语种A.I.虚拟主播,就曾为我们展示A.I.+媒体场景的新可能。
通过采集录制真人的声音素材,再通过声音标注以及机器的深度学习算法,构建出发音声学模型,在此基础上,打造出了这位兼备中英日韩多国语言播报能力的虚拟主播“小晴”。
在四月举办的的第二届“一带一路”国际合作高峰论坛中,科大讯飞和中央广播电视总台联合打造的A.I.虚拟记者“通通”上岗,在系列视频《A.I.记者“通通”游世界》中,带领观众见证“一带一路”沿途的风土人情与历史变迁。
记者“通通”游世界
借助科大讯飞的语音合成技术,A.I.虚拟主播所展示出的流畅、自如的新闻故事播报已与真人无异。如今的A.I.虚拟记者不仅可以随时上岗,还能结合更多具体场景,让新闻报道的形式和内容更加丰富。
在人工智能的赋能下,当专业新闻者将更多精力投放于深度、人性化的工作中,一个更加智能、更有温度的新闻行业前景值得期待。
放眼更远的将来,语音合成技术也许可以让每个人都拥有属于自己的虚拟声音与形象。
今夜华筵终散场,一切终有尽时。
从2006首次参赛,到2019十四连冠,凝结了无数讯飞人的创新、坚守。
再见了“Blizzard Challenge”,当这一站征程结束,我们的未来是星辰大海。脚踏实地,技术打磨产品落地,用人工智能构建万物互联的世界是讯飞人的更高追求。
让我们忘却桂冠,在人工智能规模化落地应用的浪潮中,用全新的产品和升级的体验,作为讯飞语音合成新的荣光!