基于卷积神经网络的耳朵识别与跟踪文献综述

 2022-10-27 20:27:34

文献综述(或调研报告):

耳朵识别的基础是耳朵检测和耳朵特征选取。其中耳朵检测从属于目标检测。目标检测是计算机视觉中最为重要的任务之一,其为之后的分类、跟踪、识别打下了基础。传统的目标检测算法如由Paul Viola和Michael Jones在论文《Robust Real-time Object Detection》[1]中提出的Viola-Jones框架,将多尺度级联滑动窗与Harr特征结合。这个方法快速且相对简单,使得低处理能力的傻瓜相机得以进行实时的面部识别。之后又出现了使用方向梯度直方图(HOG)特征和支持向量机来分类,这个方法依然需要一个多尺度滑动窗,尽管它比Viola-Jones表现优异,但速度却慢了很多。

深度学习方法自2014年开始在目标检测领域大放异彩,彻底击败了其他的传统模型。Girshick等人开发出的一系列通过提取候选区域,并对相应区域进行以深度学习方法为主的分类方案,如:RCNN[2]/ Fast-RCNN[3] / Faster-RCNN[4],多次在PASCAL VOC的目标检测竞赛中折桂。之后又出现了基于深度学习的回归方法:YOLO[5] / SSD / DenseBox 等方法;以及最近出现的结合RNN算法的RRC detection;结合DPM的Deformable CNN等。在深度学习的大框架下,结合各种网络模型各显其能。

早期工业界关注的主要是人脸/人/车这些对监控、交通等领域非常重要的目标,而随着技术的不断提高,科研人员的触角延伸到了更多的场景,检测的类别扩展到了生活的方方面面。在人耳检测这个子领域,主流的方法还是基于传统的局部特征编码方式,尽管出现了一些深度学习的方法,但其尚未在此领域充分展现其优越性,下文我们将逐一介绍一些传统耳朵检测的方法。

在[7]中,作者提出了一种使用霍夫变换将耳朵椭圆拟合到耳朵的算法。该方法对噪声和遮挡足够宽容,在UND[8]数据集上实现了91%的成功率和数据的识别率;在无遮挡的XM2VTS数据集中实现了100%检测率。

在[9]中,Canny边缘检测器用于提取耳图像的边缘,并以耳外螺旋曲线作为定位过程中的特征。在IITK[6]数据集上,作者报告有93.34%的定位精度,精度如下定义:

定位精度=

在使用Canny边缘检测器的另一项工作中[10],作者汇报说达到了USTB[11]数据集上98.05%的定位精度;在Carreira-Perpinan数据集上[12] 97.05%的定位精度。

在[13]的工作中,作者提出了一种基于级联AdaBoost的听觉检测方法。作者报告了在203张全是侧面图像的UND[8]数据集上可以达到100%的检测率,5times;10eminus;6的假阳性率。但是上述的算法均没有给出具体的精度定义。

另一种基于距离变换和模板匹配的耳朵检测方法[14],作者报告在IIT Kanpur数据集上的检测精度为95.2%。作者将与通用耳模板足够相似的区域(即,高于预定义阈值)定义为正确的检测。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。