捷通华声灵云:合清华之力推动人工智能

2014-07-28 13:18:53

        在微软小冰与微信之间剪不断理还乱的“各说各话”之后,人工智能这个词汇瞬间风起云涌:Google的佩奇、百度的李彦宏等大佬在公开场合大谈人工智能,暗中则在加快无人驾驶汽车和百度大脑的研究进程;微软在用“Adam计划”继续强化自家产品的智能水平;与此同时,国内人工智能技术领军企业捷通华声在为同时提升人机交互能力与计算机的思维能力上跨步前行,不断推动人工智能技术在中国产业中的应用与普及。

深度学习:人工智能的分水岭
        人工智能是一个由浅入深的智能化模型、机制和过程,在较浅层次上,人工智能意味着智能化的人机交互方式,如智能语音交互,让计算机“能说会听”;智能图像识别,让计算机“能写会看”;在深层次上,人工智能意味着基于机器学习技术的知识表达、归纳、推理等智能计算过程,如语义理解,让计算机明白交流的内容。如果说智能人机交互是人工智能的触角,智能计算则是人工智能的核心,二者缺一不可,共同组成一个智能网络。而深度学习技术的突破,则进一步完善了对人工智能的完整定义。
        在学术界,深度学习是脱胎于深度神经网络(Deep Neural Network,简称DNN)的一个抽象概念,这种算法可以使计算机的认知过程逐层进行、逐步抽象,被称为是“最接近人脑”的复杂模型。吴恩达教授在谷歌大脑项目中的开发使深度学习的强度提高了十倍,并显著提高了语音识别和计算机图形识别的准确率。“人工智能已经失败了无数次,如今它实现了一次超越。” 深度学习领域先驱扬•乐康(Yann LeCun)如此评价。
        如今深度学习在人机交互领域取得更加明显的效果,其巨大的影响更多集中在语音识别上:当谷歌在安卓手机上采用基于DNN的语音识别技术时,它的识别错误率下降了25%;当捷通华声将DNN用来提高“灵云人工智能技术平台”的中文识别水平时,结果是大幅提高了人声和电话通道录音双方面的识别率。DNN对于语音识别的影响可见一斑,立竿见影的增益效果使脱离了Nuance技术支持的苹果也为之心动。
然而,能从DNN中获得巨大收益的可不止是语音识别。
        Google、百度已经把DNN用于街景地图中的光学字符识别(OCR)以便于识别店铺名称等信息——这对能提供地图搜索服务的企业来说是显而易见的行为。几乎与此同时,钻研OCR多年的捷通华声也在尝试将DNN融入灵云的各项服务,使得文档、票据、证照、名片中的文字信息能在不需要人工校正的情况下准确地“跃然纸上”,在银行、海关、公安、税务等领域得到广泛实际应用。
       “深度学习将全面占领计算机视觉和语音识别领域,并将对机器翻译、网页搜索和对话系统等性能提升有所帮助。”吴恩达教授在做客中国科学院自动化研究所时如是说。

清华大学:灵云力量的源泉

        2006年,加拿大多伦多大学教授、机器学习领域的泰斗杰夫•辛顿(Geoff Hinton)和学生在顶尖学术刊物《科学》上发表了一篇文章,引发了深度学习在学术界和工业界的浪潮。2013年,Google收购了辛顿的研究小组,一下使产业界的目光集中到学术上来。科技公司清醒地意识到,单靠自身实力是不足以在人工智能领域有所建树的,必须依靠学界的研究力量才能打开更广阔的天地。于是,科技公司不但在人工智能上争相投入资源,也开始在学术界招揽辅佐之士。同年晚些时候,Facebook宣布聘请前文提到的扬•乐康掌管人工智能实验室。而后,吴恩达教授也被揽入百度麾下。而捷通华声公司在此时也显示了它的与众不同,2013年,捷通华声宣布与国内人工智能领域的最高学府清华大学展开深度合作,凭借捷通华声旗下人工智能云服务开放平台:灵云(hcicloud.com)的优势,共同达成“灵云科技 源自清华 服务全球”的战略合作发展目标。自从捷通华声得到清华大学多个顶尖实验室的鼎力相助,灵云各项人工智能技术突飞猛进,合作后短短三个月的时间,采用新版DNN算法的灵云语音识别准确率就突破了95%,达到国内最高技术水准,并与语音合成技术完美整合,迅速为智能家电控制、车载导航、语音导航等领域提供完整智能语音解决方案,因方案完整,易于应用受到产业界的好评。又经过不到三个月的时间,灵云智能平台在清华科研团队的支持下向社会推出“机器翻译”能力,中英互译的算法能力不低于国内任何一家企业。“三个月一突破”似乎成为了捷通华声灵云智能平台既定的节奏。如今,灵云智能平台在捷通华声与清华团队的共同努力下日臻完善与强大。作为国内唯一的专注人工智能技术的云服务平台,灵云智能平台将计算机的思维和感观能力集于一身:用语音合成、语音识别和OCR、手写等技术让计算机具备了语言和视觉能力;用自然语言理解(NLU)让计算机具备了理解、处理人类语言的能力;用机器翻译(MT)实现了人类语言的自动高级转换——实现了灵云平台从人工智能浅层次向深层次的迈进。而今,灵云智能平台的六项人工智能技术能力已向社会全面免费开放,用户可以在灵云平台各取所需,为自己的软件应用、智能设备、汽车、家电家居添加多种人工智能能力。
        灵云智能平台自2013年向社会全面免费开放以来,灵云语音识别(ASR)、语音合成(TTS)、图像识别(OCR)、手写识别(HWR)、自然语言理解(NLU)、机器翻译(MT)等六大技术能力得到产业界、开发者的广泛认同,并助力百度导航、搜狗导航、导航犬、嘀嘀打车、快的打车,天行听书、汉字英雄成为家喻户晓的移动经典应用,让超过3亿中国社会大众轻松体验到人工智能技术的服务,感受人工智能技术无限的魅力。不仅在移动互联网领域,面对产业与行业应用,捷通华声推出了灵云智能语音、智能图像、智能客服等多种智能解决方案,并已广泛应用于金融、电信、能源、教育等领域。
        在应用深度学习优化灵云能力的过程中,捷通华声和清华大学的科研团队深刻认识到人工智能拥有的无限可能,即便现在如日中天的深度学习也不见得能够引导我们走向最后。在科学探索的道路上不断寻找最优解、敢于重新定义新的方向才是让人工智能逐步蜕变的完美法则。本着这个信念,清华的团队也将和捷通华声一起努力推动整个人工智能产业界的进步。
        如何推进人工智能技术的产业化应用,捷通华声灵云平台首席架构师陈明博士表示:“我们将更加专注在将清华大学实验室的优秀技术产品化,未来,虹膜识别、指纹识别、掌纹识别等人工智能能力都将在灵云平台出现。而如何整合各项人工智能技术能力也将是我们下一步的研究重点,以为产业界提供完整的智能解决方案。”。
        未来,捷通华声灵云智能开放平台将逐步推出更宽广的人机交互能力与更深层次的人工智能能力,充分发挥移动互联网、云计算服务之优势,真正推动人工智能技术服务产业、服务社会,推动人工智能产业成为中国IT领域中最具创新力的产业力量。
作为国内人工智能产业的推动者,与国内人工智能技术研究的领军者,捷通华声与清华大学已经为灵云智能开放平台的爆发性发展做好了充足的准备。

        体验灵云人工智能能力,请访问:www.hcicloud.com

关注捷通华声微信公众号,了解更多资讯