两会报告识别准确率超98%,灵云语音云上线新ASR引擎、党政会议语言模型

2019-03-21 09:45:42

刚刚结束的全国两会,不仅是人大代表繁忙的时刻,更是让广大媒体记者忙碌了起来。历时两周的两会,各大媒体记者需要整理上百个大大小小的会议、几千名人大代表的各种会议精神和发言内容,确保新闻的时效性。若是没能速记到一字不差,便只得老老实实通宵整理会议录音,费时费力。

为了方便更多媒体记者快速整理访谈、会议新闻稿件,捷通华声在灵云语音云上线最新ASR引擎的基础上,推出党政会议专业领域语言模型,面对两会发言、政府报告、党团会议等相关录音实现了超高的转写识别准确率,获得媒体记者一致好评。

党政专业领域模型优化成就超高识别准确率

“我的天!这语音云也忒牛了!本打算熬夜整理两会录音的,没想到等了几分钟,录音内容就变成了文字,太省事了!”一位刚刚结束两会工作的记者用了灵云乐识转写录音后惊叹道,“而且这准确率太高了,党政相关的专业词汇几乎全转写对了!”

两会政府报告转写结果,准确率近99%

近期,有不少记者使用了灵云语音云转写了两会相关内容的录音后,纷纷表示识别准确率大幅提高,像“第十三个五年规划纲要草案”、“全面建成小康社会”、“户籍人口城镇化率”等等党政领域的专业词汇都转写的十分准确。“以前需要花几个小时整理的录音,现在等几分钟就能转写成文字,没想到专业词汇还很准,基本不需要做什么改动。”

如何造就变态准的识别率?

本次识别准确率提升明显的良好体验,得益于捷通华声针对语音云灵云乐说的语音识别技术,在核心ASR引擎的升级和语言模型的定制领域训练优化。

语音识别系统结构框图

从语音识别原理来讲,影响语音识别准确率很重要的因素就是语音识别系统的模型,般包括声学模型、语言模型两部分,捷通华声通过领先的人工智能技术,在两方面针对党政会议的录音均进行了针对性的优化。

声学模型是从语音信号中抽取的特征到音节概率的计算。作为语音识别系统的重要组成部分,它占据着语音识别大部分的计算开销,决定着语音识别系统的性能。捷通华声通过将最新推出的全新一代灵云语音识别引擎应用到语音云中,对建模单元粗粒度、模型训练方法、解码帧率进行创新优化,有效提升了语音识别引擎的执行效率、鲁棒性,增强了口音、语速适配能力,大幅提升了声学模型的效果,识别率得以实现跨越式提升。

语言模型是音节到字概率的计算。捷通华声近期通过对语言模型进行定制场景训练优化,推出了专门针对党政会议的语言模型,该模型将大量关于党政会议、报告的语音及文本语料放入其中进行了训练优化,面对涉及党政相关的领域词汇,实现了更好的匹配度,从而在专业领域的识别准确率上有了更大幅度的提升。

除了党政会议领域,灵云语音云还拥有新闻媒体、会议办公、情感写作、IT科技、影视娱乐、医疗保险、法律法院务等多种场景的语音识别模型以供用户选择,满足不同领域的音频转写,帮助各行各业的用户实现高效记录和信息输入。

在线转写编辑 边听边改更高效

语音转写为文字后,为更好地提高文字整理效率,语音云还拥有在线分音频节点编辑功能,用户可以点击任意需编辑的文字,系统会定位到该处文字的音频节点,然后边听该段音频边即时修改文字,哪里文字转写不准,可以随时点击定位到相应录音上进行修改。

一般一段一小时的采访录音需要花三四个小时才能整理完,而有了这个强大功能,通过边听边校对,一小时的录音听完也就整理完了。并且,完全避免了整理录音时听着录音手动按下暂停,在word上敲打文字后再回来点击继续播放的复杂操作。

 

关注捷通华声微信公众号,了解更多资讯