科大讯飞已经在做了。
一段 20 分钟的音频,只用 20 秒就转录成比较准确的文字。
作为一个经常需要采访并且整理成文字的编辑,在如何将语音转化成文字这件事上着实花费了不少心思。
最传统的方式是先开启录音功能,然后一边打电话一边速记要点,然后再利用音频播放工具反复重听将所需要的细节进行完善。我知道你也许会说我很笨,但是我的确做不到一次性将采访的内容全部记住。
相信这样的人也不在少数,那么还有什么其他好办法么?在我看来,讯飞听见算一个。
讯飞听见作为科大讯飞自己的一套产品,包括三部分:PC 端网站、电销机器人端 App 录音宝、听见录音笔,形成了一套“软件+硬件+服务”的完整体系。
转录语音这件事,精确最重要!
在去年的讯飞年度发布会上,讯飞听见就展现了一把自己的转录精确度,董事长在台上演讲,旁边的屏幕上就直接出现演讲的内容智能语音系统,精确度几乎达到 99%。当然,这个具体的精确度还是要具体使用才知道。
除了识别率之外,三款产品还有非常多的亮点,PC 端的处理速度非常快,官网上表示 1 小时的音频只需 10 分钟就可以处理完成。而在实际使用中,速度比这个还快,20 分钟出头的音频通常不用 1 分钟就可以完成转录。
点击进入转录完成的页面之后,你会看到一个非常有特点的操作页面。顶部是语音的波形图,用户能够选择播放、加/减速播放,快进/退等常见的操作。
波形图的下方,则直接分成两部分:左边是转录出来内容,右边则是一个功能完善的文字编辑器。左边的内容被智能的分隔成很多段,用户可以选择将其中一段、几段或是全文导入到编辑器中。
似乎没有什么意思?接下来才是重点
上图左侧的转录内容能够直接通过搜索关键字的方式进行筛选,点击其中的文字还能直接播放对应片段的音频,这也就让用户能够直接完成“转录-听录音-修正结果”整个过程。
右侧的编辑器功能也比较强大,主要的文字格式编辑,比如字体、大小、颜色、背景色、粗体、斜体、划线、下划线都有,此外提供了犹如对齐和缩进的段落格式功能。
只不过添加一个编辑器而已,真的有那么重要么?从实际的使用效果来看智能语音系统,除非录音设备很高级、录音对象的发音非常清晰,通过机器转录的效果目前还没有办法达到 100% 准确。这也是添加一个编辑器的最大意义所在。
当然如果你自己比较懒,讯飞听见还提供了收费的人工转录服务,只要上传了录音你就能够直接获得最终的精准文字结果。
从定位上来说,这款产品主要面向记者、律师、速记员等有音频转文字需求的用户。当然这其中的语音分析技术同样能够运用到其他应用上,开发者能够通过讯飞开放平台中选择自己所需的服务构建 API 结构,实现自己产品的交互升级。