灵云最新情感语音合成技术 极致声音体验赋能产品创新

2018-07-16 14:57:51

电影《Her》中,主人公西奥多刚结束一场失败的婚姻,一次偶然的机会,他接触到了搭载了人工智能系统的虚拟化身“萨曼莎”。萨曼莎拥有迷人的、磁性的声线,时而风趣幽默、时而温柔体贴,与我们实际生活中听到的许多机器人顿字、顿句的发音相去甚远,他爱上了这个声音。

虽然这个虚构出来的角色是由演员配音完成的,但却透露出一个真实的讯息——越接近真人说话水准和富有情感表现力的声音,越容易为大众所接受。

利用声音“粘性” 为产品打造专属形象

让机器摆脱平铺直叙的发声,带来更加舒适自然的听觉体验,这也是当前语音合成技术的发展方向。凭借十多年深厚的技术积累及行业应用,捷通华声打造出具有划时代意义的灵云情感语音合成技术,能够合成出带有语气、情绪等情感丰富、更接近真人的声音,可通过“云+端”的形式让每一家企业都能轻松拥有更动听、更富感情的语音合成服务。

在语音合成需求市场,不同品牌、公司及服务商会根据自身不同的场景和产品特点采用不同的声音,例如银行的智能客服需要嗓音甜美、温柔动人的声音,而催收公司则需要措辞恳切、略显严厉的声音。语音合成的个性化以及情感化成为如今市场的迫切需求。

为了打造优质的语音,让用户喜欢从而形成对声音的“粘性”,捷通华声采用最新采用的深度学习技术建模,连同高音质声码器,产出个性细节丰富的声线效果,语气感真实。情感语音合成技术采用高度自动化的数据加工标注,用户只需提供自己喜爱的录音,即可快速定制出音库。

同时,捷通华声十多年来积累了大量的领域词库、预选音库,可为金融证券、天气预报、体育赛事、公交汽运、航空、税务、POI、排队叫号等众多领域提供更专业的语音合成播报,客户能够快速、轻松定制与自己产品属性、形象相匹配的声音,为产品赋能。

声情并茂  全新技术业内领先

传统语料数据处理方式为手工精标,需要耗费大量人力,捷通华声采用先进的人工智能技术,通过计算机程序进行预处理,之后再由人工进行校正,大大提高了工作效率。在核心技术方面,捷通华声也达到了业内领先水平:

声学模型训练方面:高鲁棒性预处理和建模框架,降低了以往对录音风格和稳定性的严格约束,普通人自然讲话、刻意带情绪讲话、角色模仿讲话,均可训练出保真、稳定的效果。

语音合成效果方面:灵云情感语音合成技术已经发布多样、个性的音色库:童声既有夸张俏皮的卡通配音,也有真实小孩的呆萌学语;女声既有林志玲般的嗲音气语,也有丹气十足的磅礴宣读;男声既有新闻主播型的正气播报,也有网络主播型的地气贫嘴,为各种应用场景提供合适的声音。

多语种合成方面:灵云语音合成技术已全面支持中文普通话、粤语、维吾尔语、英语、日语、德语、法语等21种语言。完备的用户自定义体系,可弥补基础合成的不足,保证合成效果稳定在高水准;中文腔调读英文的自定义词表,保证中英文混杂时的无缝自然过渡。

十多年深耕技术  引领行业变革

十多年来,捷通华声一直专注技术研发与创新,依靠国内领先的灵云语音合成技术,在国内智能语音市场占有率超50%:

早在2001年,捷通华声便推出代表国际领先水平的jTTS世纪版。随后,捷通华声成为建行、农行的唯一语音合成供应商,全国99%的高铁站也均采用灵云语音合成播报。同时捷通华声成功服务北京奥运会,上海世博会也采用灵云语音合成技术播报赛事。到2016年,捷通华声已成功为上千家企业提供语音合成技术。

让声音自然,富有情感和表现力,一直是语音合成技术的一大难点。如今,捷通华声正在利用全新推出的灵云情感语音合成技术,为金融、电信、能源、交通、政府、医疗、互联网等上千家企业提供更加优质的服务,全新体验的语音合成产品引发了巨大变革。

不论是智能客服、地图导航、机场广播的甜美女声,还是新闻播报、听书朗读的清爽男声,智能家电、机器人的可爱童声,灵云情感语音合成技术都能让有各种需求的企业快速拥有更具竞争力的产品,让社会大众能够体验到富具情感、更声情并茂的听觉体验。

在核心技术升级的同时,捷通华声也努力打造出更加稳定、便捷应用的私有云能力平台以及公有云开放平台,从而形成了从底层数据、到核心技术,再到服务应用的三层业务结构,极大地满足了合作伙伴多方位的需求,方便企业用户实现快速无缝化的产品演进。

部分内容引自《猎云网》吕梦原创文章

关注捷通华声微信公众号,了解更多资讯