摘要:看到别人在低声讨论时,你是不是就想学习唇语来看破他们在讨论的什么,小编是经常有这种想法,不过,现在不需要了,因为我们已经有了AI唇语识别,可以让每个人都具备看懂唇语的能力。
看到别人在低声讨论时,你是不是就想学习唇语来看破他们在讨论的什么,小编是经常有这种想法,不过,现在不需要了,因为我们已经有了AI唇语识别,可以让每个人都具备看懂唇语的能力。
什么是唇语识别
所谓的“唇语识别”,其实并不神秘。
就是通过“观察别人的嘴型,解读其表达语句”的能力。目前,一些听力障碍者们也会使用这种技巧与他人进行交谈,补充听力器官的不足。
但随着科技的发展,人工智能在各领域渐次开放,在唇语识别上,机器已经做的比人类好了。
从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。
唇语识别的研究现状
2003 年,Intel 就开发了唇语识别软件 Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行唇语识别的计算机。
2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词,新闻测试集识别准确率首次达到了 50% 以上。
2017年 搜狗推出了一种人机交互新技术——“唇语识别”。该系统达到60%以上的准确率,超过google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下甚至已经达到90%的准确率。
唇语识别技术从镜头输入到理解输出,中间最重要的关键是:视觉前段、视觉特征提取、唇动识别。
视觉前段——包括人脸检测与唇的检测和定位,先用人脸检测演算法得到人脸然后有针对性的定位唇动;
或者利用最佳闽值二值化演算法,以唇的边缘是平滑的,和左右形状对称为条件,作为二值化闽值选定的约束条件,得到平滑而对称的唇图像。
视觉特征提取——是对获取的唇图像进行处理得到对应特征,特征提取方法主要分为基于图元的方法和基于模型的方法两大类;
搜狗所用的基于模型的方法就是,对唇的轮廓建立一个模型,将特征资讯包含在这个模型之中,并对模型中特征资讯的变化用一个小的参数来描述。
这类方法的优点是重要特征被表示成二维参数,不会因光照、缩放、旋转、平移而改变,缺点是忽略了细微的三维资讯,可能会对后面的识别过程造成影响。
唇动识别——目前采用的技术大多是隐玛尔可夫模型( Hidden Markov Model,简称 HMM ),该模型认为唇动信号在极短时间内是线性的,可以用线性参数模型来表示,然后将许多线性模型在时间上串接起来,组成一条玛尔可夫链。
据了解,在非特定开放口语测试中,目前的通用识别准确率已经在 70% 以上,而在金融风控、车载、智能家居等垂直场景下,已达到超过 90% 的准确率。
扫码关注
您身边的物联网卡专家
免责声明: 51物联卡 发布此文目的在于促进信息交流,此文观点与本站立场无关,不承担任何责任。如无意侵犯媒体或个人知识产权,请来电或致函告之,本站将在第一时间处理。
发表评论