富士通研发基于深度学习的短时长声纹认证技术-巨人网络通讯

富士通研发基于深度学习的短时长声纹认证技术

　　富士通研究开发中心有限公司(FRDC)开发了一种高精度的声纹认证技术，该技术利用深度学习方法，可以从一段很短的语音片段中甄别出说话人的身份。该技术融合了两个深度学习引擎，一个引擎用于提取与语音内容相关的特征，而另一个引擎用于提取与说话人相关的特征，从而实现了“语音密码”身份认证的功能，即：只有说话人本人正确说出预先设定的内容时，其身份才能被接受。利用该技术，在不超过3s的语音片段上，身份认证的错误率可达到2.2%左右。

　　该技术可广泛应用于呼叫中心及IoT设备交互等应用中，通过快速安全的验证用户的身份，强化操作的安全性和便利性。

　　【开发背景】

　　声纹识别是生物认证领域的一个重要分支。由于具有可远程操作的独特优势，在金融业电话银行业务、智能家居、刑侦安防等领域中，基于声纹的身份认证方式已经逐渐被认可，并成为防欺诈的一个重要手段。在呼叫中心业务中，顾客常常需要输入密码或通过回答一系列的问题来验证其身份。这种问询式身份验证过程平均需要60秒以上的时间，既影响了客服的工作效率，又给顾客带来厌烦情绪。因此，开发一种安全有效的远程身份验证方式，将大幅提升呼叫中心的运营效率，降低其运营成本。

　　【课题】

　　传统的声纹识别技术，依靠统计学和信号处理技术从语音中提取与说话人特质相关的特征，以此实现身份认证。然而，该技术往往需要较长的语音才能鉴定说话人的身份，例如30秒时长。在金融业呼叫中心及IoT设备交互等应用中，需要快速验证用户的身份，传统的声纹识别技术显然不能满足这种需求。此外，传统的认证方式不能防止利用他人的录音来假冒身份的欺诈行为。

　　【开发的方法】

　　(1)采用深度学习技术有效降低语音时长

　　传统的声纹识别技术通常将语音分割成小片段(一般为20ms左右，称为一帧)，然后，利用上千个高斯模型，从每一个语音片段中甄别出与说话人相关的特征。由于高斯模型数目多、维度高，因此，只有当语音数据足够多时，这种统计方法才能获得有效的说话人特征。如图1所示，深度学习技术能同时处理多帧语音片段，从中学习与说话人特有的特征。由于处理的语音长度增加，因此，其包含了更多的与发音方式相关的特征，例如语调变化、停顿、音频等。所以，这种上下文技术能大大降低身份认证所需要的语音长度。

　　(2)融合说话人特征与语音内容

　　本技术中，我们采用两个深度学习模型，分别提取和说话人本身相关的特征以及语音内容进行身份验证，从而实现了“语音密码”功能，即：只有说话人本人正确说出预先设定的内容时，其身份才能被接受，如图2所示。采用固定的语音密码，一方面能防止利用他人的录音来假冒身份的欺诈行为，此外，还能帮助提取更有效的说话人特征。例如：某人的语音密码中包含了音节[a]，而此人对音节[a]的发音模式与他人不同，那么，这个特定的模式就被说话人模型所学习，成为区分此人的一个重要特征。即使他人知道了语音密码，由于音节[a]的发音模式不同，其身份也不能被接受。