据中国新闻出版研究院数据显示,2017年中国成年人的听书率为22.8%,越来越多的人习惯于用耳朵听而不是用眼睛看,有声阅读正在成为未来阅读的新形式。生活节奏的加快,上班族习惯了通勤路上或者碎步化时间来收听消息,所以能够收听新闻资讯、满足阅读需求的音频类平台、APP越来越受大众喜欢。
声音作为有声阅读中重要环节,是如何实现的?
传统的声音获取可以通过找专业的声优进行录音或配音,而互联网信息瞬息万变,录制的速度可能赶不上信息变化的速度,同时海量的内容信息通过录音工作量大且成本高,而人工智能技术的发展,语音合成技术改变了这一难题。
语音合成技术,从源头解决声音输出的方式
极限元的语音合成技术采用国际先进的数据驱动技术,利用精心设计的语音语料库进行声学模型和文本处理模型的训练,得到的模型深度挖掘了语音语言特性,合成的语音清晰、自然、亲切、具有高表现力,媲美真人发声。
极限元的语音合成技术能够实现有声阅读下的多种平台多种场景的应用,如提供新闻资讯播报平台、小说诗歌阅读APP、音频公众号、智能音箱等。
适配于多用户多场景下的“阅读”体验
在面对多种人群多种阅读内容形式时,单一的合成语音已经不能满足需求,极限元语音合成能够提供各类型男声、女生及童声。
还可根据用户需求定制个性化音色服务,如:林志玲的嗲气十足、郭德纲幽默逗趣、游戏动漫角色声、各类方言等。极限元定制化语音合成支持录音人选型、录音采集、语料标注,还能实现模型迭代训练、合成引擎优化,支持在线、离线模式,适用于多种平台。
极限元语音合成技术优势体现
数字、符号在生活中无处不在,同样也充斥在阅读的文本中,那么不同的数字,符号代表不同的意思,该如何处理呢?极限元语音合成技术能够根据数字的上下文语境,做出智能判断,以确保朗读的正确性,例如10:12,可以表示十点十二分,也可能是比分十比十二,这就需要根据其上下文语境进行判断。
而对于符号,极限元语音合成技术能正确判断这些符号的读法,以及其符号与相邻文本(数字)朗读的先后顺序。比如RMB100读作“100元人民币”,40%-50%读作“百分之四十到百分之五十”。
语音合成技术中,让声音富有情感和表现力,一直是语音合成的一大难点,而极限元为了保证合成语音真实、自然、富有情感,适用于多种场景下,积极地与国际接轨。其创始团队源自中科院自动化研究所并成立“智能交互联合实验室”,号称语音合成界的“黄埔军校”;在人工智能领域有20多年技术积累,在国际会议和期刊上发表论文400余篇,申请语音及音频领域专利100余项;作为负责人、科研骨干参与多项国家自然基金项目、国家863项目和国家重点研发计划等项目,获得多媒体情感竞赛第二名、北京市自然科学进步二等奖、中国专利奖优秀奖、北京科技进步奖、Eurospeech大会奖等多种奖项。