AI唇语识别!人工智能领域的下一个风口

浏览:6379

摘要:看到别人在低声讨论时,你是不是就想学习唇语来看破他们在讨论的什么,小编是经常有这种想法,不过,现在不需要了,因为我们已经有了AI唇语识别,可以让每个人都具备看懂唇语的能力。

    看到别人在低声讨论时,你是不是就想学习唇语来看破他们在讨论的什么,小编是经常有这种想法,不过,现在不需要了,因为我们已经有了AI唇语识别,可以让每个人都具备看懂唇语的能力。



    什么是唇语识别

    所谓的“唇语识别”,其实并不神秘。

    就是通过“观察别人的嘴型,解读其表达语句”的能力。目前,一些听力障碍者们也会使用这种技巧与他人进行交谈,补充听力器官的不足。

    但随着科技的发展,人工智能在各领域渐次开放,在唇语识别上,机器已经做的比人类好了。

    从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。

    唇语识别的研究现状

    2003 年,Intel 就开发了唇语识别软件 Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行唇语识别的计算机。

    2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词,新闻测试集识别准确率首次达到了 50% 以上。

    2017年 搜狗推出了一种人机交互新技术——“唇语识别”。该系统达到60%以上的准确率,超过google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下甚至已经达到90%的准确率。



    AI唇语识别技术原理:

    唇语识别技术从镜头输入到理解输出,中间最重要的关键是:视觉前段、视觉特征提取、唇动识别。

    视觉前段——包括人脸检测与唇的检测和定位,先用人脸检测演算法得到人脸然后有针对性的定位唇动;

    或者利用最佳闽值二值化演算法,以唇的边缘是平滑的,和左右形状对称为条件,作为二值化闽值选定的约束条件,得到平滑而对称的唇图像。

    视觉特征提取——是对获取的唇图像进行处理得到对应特征,特征提取方法主要分为基于图元的方法和基于模型的方法两大类;

    搜狗所用的基于模型的方法就是,对唇的轮廓建立一个模型,将特征资讯包含在这个模型之中,并对模型中特征资讯的变化用一个小的参数来描述。

    这类方法的优点是重要特征被表示成二维参数,不会因光照、缩放、旋转、平移而改变,缺点是忽略了细微的三维资讯,可能会对后面的识别过程造成影响。

    唇动识别——目前采用的技术大多是隐玛尔可夫模型( Hidden Markov Model,简称 HMM ),该模型认为唇动信号在极短时间内是线性的,可以用线性参数模型来表示,然后将许多线性模型在时间上串接起来,组成一条玛尔可夫链。

    据了解,在非特定开放口语测试中,目前的通用识别准确率已经在 70% 以上,而在金融风控、车载、智能家居等垂直场景下,已达到超过 90% 的准确率。


    除此之外,唇语识别技术还能发挥巨大的公益价值,帮助先天性听障人群或老年人,让他们更好地理解和表达自己。

物联网卡,51物联卡

扫码关注

您身边的物联网卡专家

免责声明: 51物联卡 发布此文目的在于促进信息交流,此文观点与本站立场无关,不承担任何责任。如无意侵犯媒体或个人知识产权,请来电或致函告之,本站将在第一时间处理。
文章来源 :

您可能感兴趣的文章

.
别买错了,能打电话的流量卡真的不是物联卡
.
工信部已责令1336款违规App整改,下
.
路由器能插无限流量卡吗,怎么选择工业路由
.
电话手表只能用专属卡吗,儿童电话手表送的
.
网上买的纯流量卡可靠吗,网上买流量卡需要
.
今日起,电子驾驶证在全国全面推行,附申请

发表评论

全部评论
总篇数
6472
关注人数
14
最热文章
日排行
周排行
最新供应
更多
最新采购
更多
运营商:中国电信
价格:协商
采购数量:2
运营商:中国电信
价格:协商
采购数量:1
运营商:中国移动
价格:协商
采购数量:1
运营商:中国移动
价格:协商
采购数量:300000
运营商:中国移动
价格:1 ¥
采购数量:50000
运营商:中国移动
价格:协商
采购数量:1

51物联卡欢迎来到 51物联卡

忘记密码
没有账号?新用户注册