您的位置: 主页 > VR陀螺 > 搜狗推出唇语识别技术,识别率90%超越去年的DeepMind团队

搜狗推出唇语识别技术,识别率90%超越去年的DeepMind团队

时间: 2017-12-17阅读:

扫码或点击「阅读原文」报名参会



在刚刚过去的第四届乌镇互联网大会上,搜狗展台凭借着机器翻译、搜狗明医、搜狗大律师、智能问答、唇语识别等人工智能技术、产品受到参会者的关注,其中最吸引眼球莫过于唇语识别了。


所谓唇语识别是通过机器视觉,不用听声音,仅靠识别说话人的唇部动作,就能解读说话者所说的内容。


搜狗语音交互中心技术总监陈伟


与语音识别不同,唇语识别是一项基于机器视觉与自然语言处理于一体的技术,因此难度也比语音识别大的多。


搜狗语音交互中心技术总监陈伟向我们介绍了唇语识别背后的技术逻辑。唇语识别需要通过摄像头,从图像中连续识别出人脸,并提取说话人连续的口型变化特征,然后将这些唇语特征放入唇语识别模型来获取发音单元,并通过语言模型来获得文本数据,最终输出文字。



据搜狗介绍,这也是国内首个公开演示的唇语系统。搜狗通过端到端深度神经网路技术进行唇语序列建模,并通过数千小时的真实唇语数据训练,所建立的词汇表已经在10万词以上,在通用唇语识别上已能够达到60%的准确率,而在搜狗深耕的车载、智能家居场景下可以达到90%的准确率。


在搜狗主要布局的车载、智能家居场景下,由于限定了边界,所使用的词汇则大大降低,搜狗又针对这些场景通过制作“限定词”的方式,如车载场景的“播放音乐”来大大提升唇语识别的准确率。目前搜狗团队已经围绕场景做了1000多个限定词。


正常人的唇语识别能力在10%左右,一些受过训练的聋哑人则可以达到40%左右,而在这项能力上机器已经超过人类。


“就是把语音识别和唇语识别做到很好的结合,让唇语识别起到辅助作用”,陈伟表明了最初做这件事的动机。尽管唇语识别的准确率还不够高,但是通过限定场景,扮演辅助角色或许可以进一步提升远场语音交互的准确性。


公众号对话框回复1109可获取人工智能产业全景图】【人工智能时代的机器人3.0新生态研究报告】

推荐阅读

点击下方图片即可阅读

炸锅了!美国正人民的名义式宣布人工智能+基因科学可以让人类永生!

上一篇:推动大数据和AI应用场景的落地,加速实现与产业融合。
下一篇:没有了

相关阅读