基于卷积神经网络的行人检测问题的研究与实现开题报告

 2021-11-21 16:15:23

1. 研究目的与意义(文献综述)

研究目的及意义

当今世界,人工智能技术已经深入我们的生活,在众多领域发挥着不可被取代的显著作用,而其也成为了世界各国创新发展的新目标和新基因。近年来,在人工智能快速发展的浪潮下,一大批高科技智能产品如雨后春笋般涌现于世,它们蕴含着让计算机或机器人模仿人类的学习行为的意义,从而实现计算机和机器人能够“感受”和“理解”人类布置的任务,从而实现人工智能对人类生活的改变,如智能语音机器人、无人超市、刷脸支付等。而在这其中,机器视觉系统是人工智能领域中一个重要的研究方向,而如何让计算机全面地感知外部世界,并对各种不同情况针对性地进行决策还是一大挑战。

计算机视觉主要包括图像识别、目标检测、目标跟踪和目标分割四个环节实现计算机“看见”世界。图像识别是指通过人们输入的图像和视频信息,对图像和视频中的对象类别进行判断;目标检测是指对图像和视频中的特有信息或特征进行识别和分类;目标跟踪即确定图像和视频中的一特定目标后,能对其进行持续定位;而目标分割则是在目标检测的基础上识别图像的像素。本文会以行人作为研究目标,对行人进行检测。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

整个方案预期完成的功能是:通过对数据集中行人的图像与视频进行学习后,可以在输入随机街拍图片后分辨出图中是否存在行人,若有行人存在应将全部行人用方框标注出,若没有行人则不做任何工作。具体思路可简要概括为:搭建faster r-cnn卷积神经网络(该网络预计包含5个卷积层与2个池化层用于提取图像特征),将行人数据库导入搭建好的卷积神经网络后令网络进行“学习”,拥有分辨行人的能力,其中卷积神经网络的搭建在tensorflow神经网络框架中实现,行人数据库采用caltech数据集,然后采用softmax分类算法实现行人识别分类。方案结构图如图1所示。

本方案拟采用更快区域卷积网络faster r-cnn的模型结构作为基本检测器。faster r-cnn采用了区域推荐网络,可以与检测网络共享整幅图像的卷积特征,从而产生几乎无代价的区域推荐。由图一可以看出,faster r-cnn由两个模块组成,第一个模块用来产生区域推荐的rpn,第二个模块是使用推荐区域的faster r-cnn检测器。整个系统是一个独立统一的目标检测网络,其中rpn模块采用“注意力”机制,告诉faster r-cnn应该看什么地方。faster r-cnn可以在一个广大的尺度和高宽比范围内检测目标。

rpn在每个滑动窗口位置要同时预测多个区域推荐,把最大可能的推荐数记为k。因此,reg层用4k个输出来编码k个边框坐标,cls层输出2k个分数估计每个推荐是否为对象的概率。这k个推荐是相对k个参考边框来参数化的,称为锚点。一个锚点位于当前滑动窗口的中心,并配有尺度和高宽比。默认情况下采用3个尺度(比如1282、2562和5122)和3个高宽比(比如1:1、1:2和2:1),每个滑动位置有k=9个锚点。为了训练prn,需要给每个锚点分配一个二值类别标签,以说明它是否为对象。被赋予正标签的锚点有两类情况:第一类是与真实边框的交并比最高的锚点,第二类是与任意一个真实边框交并比都高于0.7的锚点。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。

第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。

第6-9周:编程实现各算法,并进行仿真调试。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。