AI唇语识别！人工智能领域的下一个风口-51物联卡

看到别人在低声讨论时，你是不是就想学习唇语来看破他们在讨论的什么，小编是经常有这种想法，不过，现在不需要了，因为我们已经有了AI唇语识别，可以让每个人都具备看懂唇语的能力。

什么是唇语识别

所谓的“唇语识别”，其实并不神秘。

就是通过“观察别人的嘴型，解读其表达语句”的能力。目前，一些听力障碍者们也会使用这种技巧与他人进行交谈，补充听力器官的不足。

但随着科技的发展，人工智能在各领域渐次开放，在唇语识别上，机器已经做的比人类好了。

从技术路径上，唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。

唇语识别的研究现状

2003 年，Intel 就开发了唇语识别软件 Audio Visual Speech Recognition（AVSR），开发者得以能够研发可以进行唇语识别的计算机。

2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词，新闻测试集识别准确率首次达到了 50％以上。

2017年搜狗推出了一种人机交互新技术——“唇语识别”。该系统达到60%以上的准确率，超过google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下甚至已经达到90%的准确率。

AI唇语识别技术原理：

唇语识别技术从镜头输入到理解输出，中间最重要的关键是：视觉前段、视觉特征提取、唇动识别。

视觉前段——包括人脸检测与唇的检测和定位，先用人脸检测演算法得到人脸然后有针对性的定位唇动；

或者利用最佳闽值二值化演算法，以唇的边缘是平滑的，和左右形状对称为条件，作为二值化闽值选定的约束条件，得到平滑而对称的唇图像。

视觉特征提取——是对获取的唇图像进行处理得到对应特征，特征提取方法主要分为基于图元的方法和基于模型的方法两大类；

搜狗所用的基于模型的方法就是，对唇的轮廓建立一个模型，将特征资讯包含在这个模型之中，并对模型中特征资讯的变化用一个小的参数来描述。

这类方法的优点是重要特征被表示成二维参数，不会因光照、缩放、旋转、平移而改变，缺点是忽略了细微的三维资讯，可能会对后面的识别过程造成影响。

唇动识别——目前采用的技术大多是隐玛尔可夫模型（ Hidden Markov Model，简称 HMM ），该模型认为唇动信号在极短时间内是线性的，可以用线性参数模型来表示，然后将许多线性模型在时间上串接起来，组成一条玛尔可夫链。

据了解，在非特定开放口语测试中，目前的通用识别准确率已经在 70％以上，而在金融风控、车载、智能家居等垂直场景下，已达到超过 90％的准确率。

除此之外，唇语识别技术还能发挥巨大的公益价值，帮助先天性听障人群或老年人，让他们更好地理解和表达自己。

免责声明: 51物联卡发布此文目的在于促进信息交流，此文观点与本站立场无关，不承担任何责任。如无意侵犯媒体或个人知识产权，请来电或致函告之，本站将在第一时间处理。

文章来源：

您可能感兴趣的文章

如何能做物联卡代理呢，如何代理51物联卡

移动流量卡29元80G套餐，移动流量卡免

人社部公布16个新职业！人工智能训练师等

中国广电公司最新消息：中国广电23省子公

2022年最便宜的流量套餐，有没有套餐低

物联卡在线购买平台，搜卡之家官方物联网卡

全部商品服务目录

AI唇语识别！人工智能领域的下一个风口

您可能感兴趣的文章

发表评论

客服：15318843848

客服：15314121619

客服：15318843848

客服：15314121619

广告合作

全部商品服务目录

AI唇语识别！人工智能领域的下一个风口

微信扫一扫：分享

您可能感兴趣的文章

发表评论

欢迎来到 51物联卡