基于深度学习的视频行人目标检测方法研究及其实现开题报告

 2021-11-22 09:11

1. 研究目的与意义(文献综述)

行人检测(pedestrian detection)是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位。近年来 ,计算机技术的快速推进以及硬件性能的不断提高使得人工智能领域发展迅速,作为人工智能领域的主要研究方向之一,计算机视觉需要实现对不同环境下的目标的检测,识别和跟踪,从而才能利用计算机或摄像机代替效率不高且费时费力的人工劳动,计算机视觉任务主要涉及目标检测,目标识别和图像分割这三个研究方向。其中行人检测作为目标检测的一个重要研究方向,同时在深度学习的环境下,行人检测也是当前计算机视觉领域的研究热点之一,受到国内外许多研究人员和专家的关注。

自上世纪九十年代以来,学术界和工业界在行人检测研究方向上获得了卓有成效的研究进展,其研究方法根据是否有深度神经网络的参与,可以分为传统检测算法和深度学习算法两大方向。传统检测算法的研究方法主要分为三类:运动分析,模板匹配和机器学习的检测方法。其中,现有的运动目标区域的检测算法大致分为三类:背景建模法,帧间差分法和光流法。模板匹配算法是行人检测传统算法的另一种研究策略,其典型的代表是由enzweiler等提出的基于全局的人体外观轮廓模板匹配算法。现阶段行人检测算法的主流研究方向是基于机器学习的方法,特征提取和分类器设计是此类方法的两个核心步骤。人体有自身的外观特征,将手工设计出的特征送入分类器进行训练后用于区分行人和背景。

近年来,深度学习在大规模的图像分类和模式识别任务中引起了巨大的轰动,在计算机视觉领域相较于传统算法,基于深度学习的算法更具优势,这使得越来越多的研究人员逐渐将其应用到行人检测领域,实践表明,基于深度学习的行人检测算法的效果已经远远超过传统算法。随着深度学习快速发展以及计算机性能不断提升,深度学习技术的广泛应用已成为大势所趋,目前卷积神经网络(convolutionalneuralnetwork,cnn)在目标检测领域取得了显著成果。将cnn第一个应用于检测任务的是由lecun等提出的lenet-5网络,该网络用于实现手写数字识别,识别准确率能够达到95%。2012年,hiton等[提出的alexnet网络在imagenet竞赛中以碾压的优势获得分类任务比赛冠军,一举推动了深度学习的发展,随后相继提出了vggnet,googlenet,resnet等优秀网络。而cnn应用在目标检测领域的真正里程碑之作是2014年由girshick等提出的r-cnn网络,该网络摒弃滑动窗口方式而采用选择性搜索(selectivesearch,ss)算法选取目标区域,在voc2012测试数据集上的平均精度(meanaverageprecision,map)达到62.4%,与传统方法比较有了非常大的提升。随后,cnn在目标检测领域的应用快速发展,研究人员相继研究发表了spp-net、fastr-cnn,fasterr-cnn、r-fcn、yolo、ssd、yolov3、dssd等一批相当优秀的目标检测网络。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

按照毕业设计的进度安排,此次研究(设计)分为以下步骤:

网络模型的建立:查阅相关资料,选择合适的基于深度学习的目标检测算法,学习其基本原理和数学模型,建立相应的网络模型,再根据实际情况对模型进行改良,从而更好地实现视频中的行人检测。

选取图像数据集:采用深度学习方法实现精确的行人检测,大量的数据集是必不可少的,所选的数据集一部分作为训练集用于对网络进行训练,一部分作为测试集用来检测训练后的网络是否符合预期标准。

训练网络:在第一步中所搭建的原始网络无法实现行人检测,所以还要选择合适的行人检测数据集并且应用合适的训练方法,使得网络最终实现预期的行人检测效果。

软件实现:学习python语言规则等相关知识,选用pytorch软件来搭建神经网络模型,并对网络模型进行训练和测试,最后根据实验得到的输出结果对所采取的算法进行分析。

基于深度学习的视频行人目标检测方法研究与实现主要包含四个部分:

第一部分是构建网络模型,通过对比各种基于深度学习的目标检测算法,最终我选择的是基于目标回归的检测网络——YOLOv3,为避免对图像的每一帧进行检测,我在检测网络后添加了跟踪模型,以提高系统的检测速度。总体流程为:采用YOLOv3目标检测网络对视频中的某一帧检测人头目标并对目标进行定位,跟踪模型对目标进行数帧的跟踪,然后再次采用检测网络与跟踪模型对后续视频进行检测和跟踪,直至视频结束或终止。

第二部分是选取图像数据集:采用深度学习方法实现精确的行人检测,大量的数据集是必不可少的,本次设计选取的是INRIA行人数据库,该数据库是目前使用最多的静态行人检测数据库,提供原始图片及相应的标注文件。该数据库中包含足够的用于本次设计所需的训练集和测试集。图片中人体大部分为站立姿势且高度大于100个象素,部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google,因此图片的清晰度较高。

第三部分是训练网络:在训练过程中,采用的数据集为INRIA行人数据集,由于数据集的数据量不够大,因此先采用WIDER FACE的公开数据集进行预训练,在预训练的过程中,采用冻结方式将YOLOv3除基础网络部分外的层数冻结,因此此过程只更新基础网络的参数,然后采用INRIA数据集进行微调,微调过程中将解除网络冻结,进行全网络训练。

第四部分是软件实现:学习python语言规则等相关知识,选用python软件来搭建神经网络模型,并对网络模型进行训练和测试,最后根据实验得到的输出结果对所采取的算法进行分析。

3. 研究计划与安排

第1周—第3周搜集资料,撰写开题报告;

第4周—第5周学习python和深度学习相关知识,了解神经网络的原理及组成,搜集资料,初步了解基于yolov3的目标检测算法原理和实现方式;

第6周—第12周完成主体程序,撰写论文初稿;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1] 范丽,苏兵,王洪元.基于yolov3模型的实时行人检测改进算法[j].山西大学学报(自然科学版),2019,(04):709-717.

[2] 芮挺,费建超,周遊,方虎生,朱经纬.基于深度卷积神经网络的行人检测[j].计算机工程与应用,2016,52(13):162-166.

[3] 王思元,王俊杰.基于改进yolov3算法的高密度人群目标实时检测方法研究[j].安全与环境工程,2019,26(05):194-200.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。