标贝科技：功能性时代已过去，可选择性才是语音合成未来-巨人网络通讯

标贝科技：功能性时代已过去，可选择性才是语音合成未来

　　AIoT正在成为科技公司们争抢的下一座城池。

　　2016年开始，智能手机行业红利开始见顶，手机厂商可争夺的存量市场不断被压缩，这时，硬件领域的新机会延伸到了智能音箱、智能家电，以及可穿戴设备。智能硬件也相应地成为互联网的新入口，国内外多家巨头已早早开始争夺这部分还未被完全挖掘的用户入口。

　　其中，语音识别及语音交互毫无疑问是各智能硬件最重要的控制手段之一，同时也是人工智能技术到目前为止落地最快的应用之一。

　　以智能音箱为例，仅2018年四季度，全球智能音箱出货量增长95％达到3850万台，超过2017全年总量。2018年出货量更是达到8620万台，同比增长100%以上。Strategy Analytics预测，2019年全球智能音箱的出货量将超过1.34亿，到2024年将增加到2.8亿。

　　搜狐科技智研所沙龙第6期邀请到标贝科技CTO李秀林进行主题演讲——《语音合成—引爆智能语音交互的导火索》

　　以下是演讲精编：

　　李秀林：大家好，非常高兴通过搜狐科技与大家沟通语音合成的一个主题，那么今天我与大家分享的题目是语音合成引爆智能语音交互的导火索。

（智研所现场）

　　首先做一下自我介绍，我叫李秀林，中国科学院声学所博士，标贝科技联合创始人兼CTO，负责整体语音技术框架。之前十几年我基本都是在语音行业，之前在百度、滴滴都是主要从事语音相关的研究工作以及探索在出行互联网行业不同的应用。

　　给大家介绍一下标贝科技，是一家专注于智能语音合成和数据服务的人工智能公司，这家公司依托自己自有的高质量的数据来开发自有的高品质的语音合成系统。我们可以提供多场景、多类别的高品质语音合成解决方案，在我们的解决方案当中我们会结合用户的需求和我们的技术去为用户量身定制他所需要的声音。

　　我们先来看一下整个语音交互的市场，根据前瞻经济学人的数据表明，近些年语音行业的发展非常快速，在2019年中国智能语音市场规模将突破200亿元，2023年预计将达到600多亿元，这个市场发展是非常迅速的，这也可以从一个侧面反映出语音行业的火爆程度。语音交互是由三个主要的环节组成的，一个是语音合成，一个是语音识别，那么连接起来的是语义理解。通过这三项技术就可以让我们的硬件设备有会听、会说、会思考，具备与人交互的能力，去满足一些真实的场景，实现AI技术的真正落地。

　　大家从样音可以听到，其实我们提供了不同的声音，有不同的特点，可以为用户去匹配不同的声音，这也是我们这几年所做的所思的所想的。

　　再下面介绍一个案例，为央视财经频道所做的工作，我们提供了两个声音，其中一个在交易时间时段的晓鲸智能机器人，实际上从它的形象来看应该是一个小孩的形象，可能比较活泼，我们结合这个产品的特点定制了一个小孩的声音。此外，主持人的声音或者是她的时间非常有限，我们专门为著名的主持人李雨霏打造了她自己的声音，也是上线了对应的产品。

（央视财经-《交易时间》栏目节选）

　　通过这些展示其实我们想陈述一个观点，语音合成随着技术的发展，它的合成效果越来越好，那么它在交互过程中的作用实际上是越来越重要的。所以我们说无合成，不交互，语音合成的语音是信息的载体，所有的机器反馈的信息都会通过语音的展示形式反馈给用户。

　　另外，我们可以提供多种多样的展现形式，让语音不再生硬，不再呆板，变得非常灵活，可以有多种多样的展现形态。从效果来说，它更媲美真人，让大家在一定程度上觉得是真假难辩的一个程度。所以说通过这种即时的响应，让语音交互变得更加即时，体验更加好一些。

　　接下来简单回顾一下语音合成的技术发展，在19世纪80年代，当时类似钢琴一样的设施，需要去弹奏才能合成出来某些特定的声音。进入20世纪80年代之后，通过一些计算机技术可以对声音进行编码，通过共振峰合成的形式来合成出语音。90年代之后计算机技术发展越来越快，通过大量运算、大量的存储可以让语音合成的效果进一步提升，达到了一定程度上的商用可能。近期我们发现它已经进入一个自学习阶段，这个阶段会让语音合成的应用更加广泛，后面会展开解释。

　　先来看一下在运算阶段，实际上整个网络分成几个模块，从图中可以看到，利用音库我们需要提取文本信息、基频谱等等特征去训练一个模型，在这个阶段最主要的计算特点是基于统计特征的一些模型，包括音码可复模型、高斯混合模型，那么有了这些模型的指导，我们一个比较常见的商用系统就是拼接合成系统就把原始的录音切成很小的片段，在合成阶段把这些片段进行有效地拼接，它的一个好处是合成的语音比较接近真人的音色，但是缺点也显而易见，因为音库不可能非常大，音库的制作周期长耗费大，所以拼接出来的语音特点往往是好的地方很好，有些地方不好的时候让人感觉很不舒服，它的拼接并不流畅。

（标贝科技CTO李秀林现场PPT）

　　从2016年开始，语音合成进入了一个非常特殊的时期，我们把它命名为自学习的阶段。那么这个阶段主要特点是利用神经网络的技术，通过复杂的神经网络模型去拟合声音的生成过程。

　　比如在2016年WaveNet提出，给我们提供了一个新的考虑语音合成的特点，之前的语音基本都是按帧或者按照音节或者音子合成的，在这个框架下实际是逐点预测，一个16k采样率的语音，每秒的语音需要对应16000次的复杂运算才能生成语音，但是它的音质大大改善，远远超出之前的系统。

　　接下来2017年有端到端的Tacotron的方法，直接文本输出语音，在这种模式下又让很多机器学习的研发人员加入到语音合成的领域，从而使得这个行业的发展更加快速。

　　在2018年端到端的基础上神经网络声码器大行其道，使得端到端加上神经网络声码器的方案受到广泛采纳。

　　从上述这三个主要的模型来看，整个的合成效果都是得到了很大的提升，它也为我们开拓了一些新的应用领域的可能。

　　总结一下，就是传统的语音合成方法，音库制作、整个的系统制作流程都很复杂，成本比较高，周期比较长，而且还有一些声音的不尽如人意的情况，但是神经网络的方法其实也不是尽善尽美，我们现在看到的是神经网络的方法需要大量的计算、大量的数据，这些在满足大量数据的情况下我们发现会有一些问题。

　　因为我们现在语音合成的数据基本是单个人去采集声音，但是单个人采集声音的量往往不会太大，可能几万句话就是一个非常大的数据库了。这种情况下我们发现它有些问题，所以我们提出一个解决的办法，我们是在端到端的基础上用它最核心的部分，也就是Attention的机制，整个系统我们不用端到端，希望文本的部分用文本的属性，语音的部分用语音的属性，这样的话我们可以充分利用我们文本的数据积累去改善整个合成效果。

　　同时，在真正落地的时候，GPU在生产环境下落地其实是有一定困难的，我们也做了针对性的优化，让它在CPU情况下能够进行高效的合成。我们所做的具体的就是把输入数据的纬度从数万维降低到数十维，我们对文本之前积累的数据模型进行了非常好的整合与神经网络的后端进行了一个适配，达到了一个比较好的效果。

　　接下来说一下产品技术体系，因为我们比较专注，做的主要是数据和语音合成，我们在技术层面把控好我们整个数据生产流程，从数据的设计、采集加工和质检，保证AI所需要的各项数据都是能够高质量对模型训练非常有价值，结合我们的算法、模型和架构我们将这些数据转换成可以直接落地的技术形态。