您的位置: 主页 > VR陀螺 > 又名卫辉站长网:LSTM—RBM—NMS模型下的视频人脸检测方法研究

又名卫辉站长网:LSTM—RBM—NMS模型下的视频人脸检测方法研究

时间: 2019-08-09阅读:

摘要:为提高视频人脸检测的准确性,我们提出了LSTM-RBM-NMS模型下的视频人脸检测方法。该模型首先利用公开的视频人脸数据集输入长短期记忆网络(Long Short-Term Memory, LSTM)网络中,在 LSTM网络中加入批量归一化(Batch Normalization, BN)算法,在预训练的模型中,采用受限玻尔兹曼机代替全连接层。然后将预训练好的模型去除softmax分类器,使用支持向量机(Support Vector Machine, SVM)分类器进行代替,最后采用非极大值抑制算法消除多余的窗口,最后得到视频人脸检测结果。实验结果表明,通过使用本文提出的LSTM-RBM-NMS模型,与传统的视频人脸检测方法OpenCV和Viola Jones(VJ)相比,在相同阈值的情况下,视频人脸检测准确率提高了3.3%~10.4%。

关键词:视频人脸检测;长短期记忆网络;批量归一化算法;受限玻尔兹曼机;非最大抑制算法

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2019)04-0176-02

目前用户进行身份验证的方法主要是基于PIN模式的,这只在初始登录期间提供身份验证。用户在注册时设定的密码,很容易被网络拦截,进而被黑客破解,因此使用密码进行用户身份认证是极其不安全的。近年来,使用生物特征进行用户认证已经成为主流,例如基于触摸手势的系统、基于人脸的系统[1]和基于语音系统。近年来,随着硬件设备更新地越来越快,对机器学习领域中的深度学习的探讨已经成了一种潮流。目前图像处理最好的算法就是深度学习。与之相比,深度学习则能自动地对特征进行提取和表示,而且一个高效的神经网络框架可以对抽象物体进行解释和分析。近十年来,许多学者对深度学习[2]的算法性能进行了优化,设计了卷积神经网络的最优结构框架。例如,Matthew Zeiler和Rob Fergus在神经网络中加入了批量归一化算法[3],它是一种非常有效的深度学习技术,极大地加快网络收敛的速度。然而,近年来一些研究学者逐渐从图像处理领域研究到视频处理领域,与静态图像人脸检测相比,视频中的人脸具有更多的空间信息,包括无约束的姿态变化、光照变化、对象遮挡等。一些传统的视频处理方法可以在受限场景下工作,但无法处理各种变化的复杂场景。视频人脸的处理非常复杂。而长短期记忆网络[4]是针对视频处理提出的。根据以往的研究证明,深度学习在语音识别、人脸识别、图像分类、目标检测[5]等领域取得了重大进步。

1 本文模型

针对视频中的人脸检测,本文采用长短期记忆网络进行特征提取,本文的模型如图1所示。

我们将公开视频数据集分为训练集和测试集,采用训练集进行训练LSTM网络,在训练的过程中,加入归一化层,加快训网络的收敛速度,同时使用随机池化层进行降维。我们采用RBM代替全连接层,进一步对提取的特征向量进行降维,这样就可以减少计算代价。我们将预训练好的模型,移除softmax分类器用于视频人脸的测试集上进行提取人脸的深度特征,将这些特征采用SVM分类器进行分类,SVM分类器泛化能力强,精度高。最后采用非最大抑制算法去除交叉重复,最后得到视频人脸检测的结果。

2 实验结果和分析

本文采用两个公开的数据集,即YouTube视频人脸数据集和IJB-A视频人脸数据集。我们知道人脸检测,阈值的选择是非常重要的。因为阈值的大小将会影响人脸检测的准确性,所以分别选择不同的阈值来进行实验。根据图2,我们可以看出,準确率与人脸检测阈值成反比,即随着人脸检测阈值的增大,准确率反而呈现下降趋势。

从图中可以看出,值得注意的是阈值在0.1处时,人脸检测的准确率最高,而在0.3到0.5之间,可以看出准确率下降的最快。在相同的阈值条件下,本文方法比其他方法具有更高的准确性。

3 结论

本文提出的LSTM-RBM-NMS模型下的视频人脸检测方法,我们采用公开的两个数据集预训练的LSTM网络,同时加入归一化算法,加快了网络的收敛速度,采用RBM替换全连接层,降低了特征维度,即减少了计算代价,将预训练好的模型去除softmax分类器,采用SVM分类器替代用于检测的视频人脸帧上,,采用非最大抑制算法,获得最好的人脸检测区域,与传统的方法相比,该模型极大地减少了网络参数,加快了视频人脸检测的速度,同时提高了视频人脸检测的准确率。

参考文献:

[1] 廖延娜,马超.基于稀疏表示的人脸识别系统设计与实现[J].电子设计工程,2016,24(17):153-155.

[2] 丁冬兵.TL-CNN-GAP模型下的小样本声纹识别方法研究[J].电脑知识与技术,2018(24).

[3] 张杰,陈怀新.基于归一化词频贝叶斯模型的文本分类方法[J].计算机工程与设计,2016, 37(3):799-802.

[4] 陈斌,周勇,刘兵.基于卷积长短期记忆网络的事件触发词抽取方法[J].计算机工程,2018(9).

[5] 李旭冬,叶茂,李涛.基于卷积神经网络的目标检测研究综述[J].计算机应用研究,2017, 34(10):2881-2886.

【通联编辑:唐一东】

上一篇:王子访校官员倒地:Spark框架下保护数据差分隐私的遗传聚类算法
下一篇:没有了

相关阅读