10月15日,“包容与多样”无障碍发展国际学术大会在清华大学成功举办。会议现场,捷通华声“灵云智会”语音转写系统将演讲者话语进行实时转写、实时上屏,转写准确率高、断句准确,受到现场各国研究学者、清华师生及各界人士的高度好评。
关于语音转写效果,现场一名清华学生说道:这个语音识别出字快、识别率高,断句、标点也很准确,不但方便了我们理解学术报告的内容和整体逻辑,更是让现场的听障人士能直接用眼睛来“听”学术报告。
“灵云智会”语音转写系统是什么,在现场是怎样实现语音转写实时上屏的?捷通华声现场工程师介绍说:灵云智会系统,是以灵云语音识别为核心,具备实时语音转写、实时内容校核、实时文字上屏功能的智能语音转写系统,不仅可以应用在各种大型会议上,也能够广泛应用于各种办公会议,帮助完成会议记录。
关于现场实时语音识别的整体流程,捷通华声工程师介绍说,首先,演讲者的声音经过麦克风采集,传输至声控台,声控台将声音送至PC上的灵云智会系统;然后,灵云智会系统应用现场服务器上的灵云语音识别能力平台,将语音转写为文字,实时反馈至灵云智会系统;最后,应用灵云智会系统的上屏展示功能,把文字投到现场的两块大屏上。
此次大会上,灵云智会系统与人工同传完美结合,实现演讲内容英中、日中等语言的同声传译与实时上屏。通过灵云智会系统的辅助,一方面,减轻了同传人员的工作强度;另一方面,提升了同传效率,让参会人员能更快、更及时地听到翻译的内容。
灵云科技 源自清华造顶尖语音技术
此次大会上,灵云智会系统应用的是捷通华声最新一代灵云语音识别技术(ASR):在CTC算法的基础上,对建模单元粗粒度、模型训练方法、解码帧率进行创新优化,有效提升了语音识别引擎的执行效率、鲁棒性,增强了对不同口音、语速的适配能力,大幅提升了多人对讲、远场讲话等场景中的语音识别率。
目前,灵云语音识别技术已支持中文普通话、英语、粤语、维吾尔语、哈萨克语、藏语安多、藏语康巴、朝鲜语、蒙文、广东阳江话等多种语言,并针对金融、电信、公检法、会议、医疗等领域训练了专用ASR模型,为行业客户提供识别率更高的ASR能力。
捷通华声董事长张连毅表示,灵云语音识别技术的重大提升,离不开与清华大学“灵云科技源自清华”的战略合作。2013年,清华产业基金投资捷通华声,共同创建“清华灵云人工智能研究中心”。2018年,捷通华声与清华海峡研究院共建清华海峡研究院灵云人工智能研究中心,张钹院士亲自挂帅,出任研究中心首席科学家。本次清华国际学术会议实时语音转写的成功,是对清华大学与捷通华声科研团队科研成果的一次完美展现,也是捷通华声向清华大学的一次合作成果汇报。
灵云智会:语音转录利器
灵云智会系统是捷通华声在政府会议、公检法审讯办案、医疗电子病历等场景应用中打磨出来的智能语音转录系统,包含丰富的功能:
语音实时转写:开会过程中,发言实时转写,并可在编辑框内实时校正修改,实现会议内容实时上屏与分角色记录;
离线录音转写:政府领导外出讲话、司法外出办案问讯、记者采访等场景的录音,可直接在灵云智会系统中转写为文档;
语音输入:安装在PC上,让用户可以直接通过麦克风,进行文字输入,提高办公效率。
为了进一步提升识别率,在行业客户应用中,捷通华声会为客户提供声学模型、语言模型定制训练服务,快速实现对行业术语、场景环境噪音的优化,为企业提供专属、私有化的语音识别能力。
灵云智会系统已广泛服务于大会会议、政府办公会议、公检法庭审与办案、医疗病历录入等场景,给办公带来了巨大便利。正如捷通华声首席科学家吕士楠先生说的,AI技术不是阳春白雪,要实实在在服务国家建设和老百姓生活。捷通华声董事长张连毅也表示:我们AI公司要脚踏实地,不断提升算法能力、深入行业了解需求,开发能够“落地应用”的产品与方案,为行业合作伙伴与市场提供更优质的AI技术与产品。