基于深度学习的手势识别技术研究开题报告

 2022-01-01 22:06:05

全文总字数:6218字

1. 研究目的与意义(文献综述)

1目的和意义(含国内外的研究现状分析)

1.1研究背景

人与外界进行沟通依赖于人自身的五感,比如人与人之间常常利用语言、手势来传达自己想要表达的信息。而随着计算机科学的发展,人与机器之间的交流,即人机交互(human-computerinteraction,HCI)已经成为现实。

传统的人机交互方式包括使用鼠标、键盘、触摸屏等,但终究是人类顺应于方便计算机理解的交流方式而做出的妥协。随着人工智能技术的发展,计算机开始由被动接受信息转为主动理解信息,基于大数据的新型人机交互方式成为发展的大势。相比传统的鼠标键盘等机械式输入方式,手势具有更加自然、简捷、简洁以及不受空间约束的优势。 近年来,基于深度学习的智能手势识别技术在智能化人机交互领域迅速发展,并逐渐融入人们的日常生活中,如手语翻译[1]、能手势操作的智能手表[2],交警手势识别系统[3]、智能电视[4]等得到了越来越多的应用。

1.2国内外研究现状

近几年,随着深度学习的快速发展,人机交互成为了计算机视觉领域的重要课题之一,手势识别正是其中之一。国外对该技术起步较早,在早期研究阶段,Grimes等人[6]设计出了数据手套,通过数据手套内部的传感器来采集手势的状态来达到手势识别的目的。虽然它可以对绝大部分手势进行识别,但需要佩戴复杂的外部设备,会带来诸多不便。现如今,许多国内外研究者都采用非接触性质的相机图片来检测手的位置,手势,手指的弯曲程度。比如Kang B [1]就使用深度传感器捕获手语手势的深度图像,训练神经网络完成了对a-z,1-9这些符号对应的35种手势的学习。

在手势识别系统中,手势分割是实现后续特征提取和分类识别的基础。 Oyedotun O K[7]设计的手势识别系统虽然能识别公共数据库中24种手势,但其手势分割算法对背景颜色要求高,不适用于实际场景。且主流的手势分割技术如肤色模型[8][9]任旧难以排除光照和复杂背景的影响,而且对手势的轮廓、角度、大小、位置等变化并不敏感,同时,其算法复杂度普遍较低从而使得识别系统的识别率提高造成限制。不过张庆锐[4]提出了一种针对复杂背景基于显著性与肤色检测的静态手势识别算法。能有效克服室内外光线问题和近肤色干扰问题,并在肤色检测基础上进一步突出手势区域,能大大提高手势识别正确率。

对于手势特征的提取,常常使用卷积神经网络(Convolutional Neural Networks,CNN)来实现。相比传统算法中特征提取和分类是分步进行的, CNN在一个模型中就能同时实现特征提取和分类,它可以对图像进行深层次的特征提取,并具有优异的分类性能。但是深度学习在对输入图像提取高层次特征的训练过程中,需要提取大量的特征信息,因而对处理器有较高的要求,而且需要一定的训练时长。为此,减少训练时长的同时又保证一定的识别正确率是神经网络模型的选取和算法的改进主要方向之一。 Strezoski G [13]比较了几种经典的神经网络(如GoogLeNet、AlexNet、LeNet和VGGNet),其中GoogLeNet分类精度最优秀,但训练时间也最长,需要更昂贵的处理器和大量的优化;而AlexNe、LeNet虽在训练时间上表现不错,但其识别精度却很难达到实时控制的要求;VGGNet[14][15][16]训练时间较短,且能得到较高的识别正确率,最适合实时使用。王苏振[7]也提到VGGNet比起一些浅的,使用更大卷积核的网络,需要的参数并没有增多,反而性能提升明显。

CNN训练的目标就是得到可以对图像处理后得到的预测结果接近于真实值的一组参数,即损失函数最小化过程。在CNN训练过程中,会产生很多的参数,如何利用正确的预测结果来对参数进行优化,是训练 CNN 主要解决的问题。目前,反向传播算法能有效简化神经网络梯度下降的计算过程,通过激励传播和权重更新等方式使神经网络具有学习能力,被广泛用于网络训练。

1.3研究目的及意义

人工智能时代到来,人与机器的关系在发生着本质变化,在这个数字化的智能时代,传统的基于从命令到反馈的人机交互方式已经开始脱离时代。被动交互的逻辑很简单,由人给机发号施令,机器执行并输出结果反馈给人。整个过程直接高效但并不智能。而基于深度学习的手势识别技术让计算机的主动交互成为现实,与被动交互相反,由机器为起点,主动通过视觉传感器获得关于手势的图像信息,并对这些手势信息进行分析和识别判断,然后输出手势对应的执行结果给用户,用户根据结果完成交互任务。该过程用户不再要人为输入或下达命令,输入输出完全由机器来完成。

它突破了传统人机交互的局限,利用计算机视觉方法,在没有接触或物质介质的情况下使计算机具有理解不同图像信息的能力,使得在面对不同手势时,能快速检测到手势区域并分割提取该区域特征信息再识别出相应的信息对应的反馈,在保证舒适性的同时也提高了人机交互的效率,方便了人们的生活和学习。

另一方面,手势识别技术不但在人机交互领域具有重大的研究意义和应用价值,也符合服务业、信息业产业化的未来发展趋势,存在潜在的强大的商业经济效益,在各行各业都备受关注。谷歌公司将该技术用于智能汽车,通过摄像头捕获手势信息以实现汽车的导航、换挡等功能。康佳公司由此实现了仅需手势就能让智能电视完成换台,调音量,关机等功能。


2. 研究的基本内容与方案

2研究的基本内容、目标、拟采用的技术方案及措施

2.1研究的基本内容

手势交流作为人们日常生活交流的常见形式已经成为智能化人机交互的重要组成部分,具有很高的研究价值及意义。本文将对基于深度学习的手势识别技术进行深入分析和研究,用TensorFlow框架[17]搭建神经网络,最终进行模拟仿真,设计出的手势识别系统如下图所示,主要包含以下几个模块:图像采集模块、手势分割模块、手势特征提取模块、手势识别模块和信息反馈模块。

图1 手势识别系统框图

文章主要探讨以下几个方面的内容:

(1)探讨图像采集模块的选取。分析基于数据手套和基于视觉传感器的手势识别技术的优缺点。

(2)改进基于肤色检测的手势识别算法,并对比改进前后算法的性能。

(3)卷积神经网络的选取。分别采用VGG模型和LeNet模型,保持其它条件不变,对比基于这两种不同模型的识别系统的训练时长和识别率。

(4)搭建实验平台,并完成上述算法的实验仿真,对结果进行分析总结。

2.2目标

训练完成前,手势识别系统能根据用户给定的手势数据集进行训练,并对数据集中的手势图像进行归类(A,B,C……类)。该过程对训练时长和系统识别正确率都有一定要求。

训练完成后,手势识别仿真系统能对用户输入的手势样本图像进行识别分类并将识别结果反馈给用户。

对于用户的输入样本,若手势分割模块识别不到手势(如样本无近肤色区域),则反馈用户:“该图像不是手势信息”。系统识别到手势后,若手势识别结果与已知的某类手势(如A类)相匹配,则反馈用户:“图像为A类手势”;若识别结果与已学习过的任何一种手势都不能匹配,则反馈用户:“未学习过该手势”。

2.3技术方案及措施

(1)图像采集模块:使用计算机视觉传感器来获取手势图像信息,并将该图像信息作为系统最初输入。

(2)手势分割模块:使用一种改进的基于肤色检测的手势分割算法,能针对在复杂应用场景下,杂乱的背景、不均匀的光照等条件下,产生的一系列传统肤色检测难以解决的手势分割问题。算法具体流程如下:

图2 基于肤色检测的手势分割原理图[4]

对输入的图像先使用SLIC方法将图像分割成N个区域,然后计算输入图像的像素级显著图和区域级显著图,再将两显著图进行融合,从而得到粗置信图,对该置信图的每个像素计算观测似然概率和后验概率从而得到最终置信图,对最终置信图进行阈值分割后就得到输出的手势区域分割图。

各步骤具体功能如下:

①步骤包含两步:超像素分割来划分区块和近似区块融合分配。能使得预分割后所获得的超像素相对紧致,且具有相近的大小。

②步骤对对手势区域定位并突出手势区域。

③步骤使用显著性检测寻找图像中最具显著性的手势区域的特性,因而能在传统肤色检测的基础上进一步突出手势区域基于肤色概率的检测方法可以进一步突出聚集的近肤色区域。

④步骤用来获取最终显著图。

(3)手势特征提取模块:

图3VGG16结构图[11]

本文预选用VGGNet的卷积神经网络,如上图所示,VGG16 的所有卷积层使用相同大小的卷积核对输入进行卷积,卷积核大小为3×3,随着卷积层数的增加,特征维度也急剧增加,因此在卷积层后加入池化层来进行特征降维,从而减少计算量,提升预测准确率,池化尺寸都为 2×2。之后是三个神经元个数分别为 4096、4096、1000的全连接层,全连接层用来提取和整合有鉴别能力的特征,最后利用 Softmax 分类器输出对每个类别预测的概率大小,并得到最终所属类别。

(4)深度学习流程

图4深度学习流程图[17]

深度学习的流程如下:

1、随机初始化所有卷积核和权值初始参数;

2、输入数据顺着神经网络的各层结构向前传播得到输出;

3、求出网络的输出与目标之间的损失函数,本文用的损失函数是交叉熵;

4、判断代价函数是否大于设定阈值,进一步计算网络中神经元的参数误差;

5、根据求得误差进行权值更新。然后进入到第二步。当损失函数等于或小于设定的阈值时,结束训练,固定权值参数,得到手势识别模型。

(5)手势识别模块:采用Softmax回归分类器作为神经网络末尾,将提取的特征信息归为某一类别,从而实现手势识别。

(6)信息反馈模块:反馈给用户输入图像是哪种手势或不是手势。

3. 研究计划与安排

第1—2周:查阅相关的文献资料,对研究内容进行整体了解; 第3—4周:了解整体实现方案,完成开题报告;

第5—6周:学习python基本语法以及tensorflow框架下的编程及调试。以及了解机器学习和卷积神经网络理论知识。

第7周:继续学习卷积神经网络内容,并开始学习预处理部分知识并尝试在tensorflow环境下实现预处理。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]kang b, tripathi s, nguyen t q. real-time signlanguage fingerspelling recognition using convolutional neural networks fromdepth map[c]//2015 3rd iapr asian conference on pattern recognition (acpr).ieee, 2015: 136-140.

[2] 惠丹.基于深度学习算法的可穿戴设备手势识别系统设计[j].信息技术与网络安全,2019,38( 9) : 30-33.

[3]罗昆. 基于神经网络的交警动态手势[d].华东理工大学,2019.

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版