基于卷积神经网络的车道区域分割与分类算法文献综述

 2022-11-30 14:36:43

研究背景及意义:

现今,无人驾驶技术与驾驶辅助系统已经进入人们的视野,对于国内的交通现状,自动驾驶与驾驶辅助系统可以有助于减少车祸的发生,这要求了自动驾驶有较高的可靠性,所以如何提高自动驾驶的可靠性,是其研究的重中之重。自动驾驶的基本任务是车辆导航或可驾驶车道识别,作为其中的重要环节,对车道线区域的检测与车道线的检测提出了实时性和准确性两方面的要求。而在实际的应用中,无论是城市街道还是高速公路上的车道区域检测和车道线检测,都存在包括遮挡、光照在内的种种问题[11],同时,车道区域和车道线本身也具有复杂性。随着深度学习技术在近几年迅速发展,推动了各个领域的进步,卷积神经网络在计算机视觉上的地位逐步提高,有多种交通车道区域分割和车道线检测方法被开发用来解决这些问题。

计算机视觉研究现状:

    1. 计算机视觉简介:

计算机视觉领域中和目标有关的经典任务有三种:分类、检测和分割。

图像分类[13]主要是基于图像的内容对图像进行标记,通常使用固定的标签,而深度神经网络[10]则是通过对模型的训练,使得在对输入图像进行预测时,能够对图像预测出最适合的图像标签。通过把图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

目标检测[14,15]涉及识别各种子图像并且围绕每个识别的子图像周围绘制一个边界框。与分类相比,该问题相对复杂,必须对图像进行更多的操作和处理。其中著名的检测方法有RCNN[1]。RCNN[1]是局部卷积神经网络,它使用一种候选区域生成网络[1](RPN)的技术,实际上是将图像中需要处理和分类的区域局部化。后来RCNN[1]经过调整效率得以调高,现在称为FasterRCNN[2]

图像分割或称为实例分割[16],包括对具有现有目标或较精确边界的图像进行分割,及预测图像中每一个像素所属的类别或者物体。这也是计算机视觉中,最为常见的任务。为了用于神经网络的学习,对于生活场景的图像分割也常有公开的数据集供开发者使用,常用的有PascalVoc、CityScapes[11]等,其中包含的丰富的城市街道数据为研究提供了充足的数据支持。而深度学习算法在图像分割中发挥了极其重要的作用。

    1. 经典算法:

第一个比较成功做图像分割神经网络的方法Fully Convolution Networks[12](简称FCN)。传统神经网络做分类的步骤是,首先图像经过多层卷积得到降维之后的特征图,这个特征图经过全连接层变成一个分类器,最后输出一个类别的向量,这就是分类的结果。而FCN[4,12]把所有的全连接层换成卷积层,原来只能输出一个类别分类的网络可以在特征图的每一个像素输出一个分类结果。这样就把分类的向量变成了一个分类的特征图。

RCNN[1]是卷积神经网络应用于目标检测问题的一个里程碑的飞跃,首先在图像中确定约1000-2000个候选框 (使用选择性搜索),对每个候选框内图像块缩放至相同大小,并输入到CNN内进行特征提取。其次对候选框中提取出的特征,使用分类器判别是否属于一个特定类,最后对于属于某一特征的候选框,用回归器进一步调整其位置。然而因其效率低下,花费时间长等问题的产生,导致了RCNN[1]的运用并没有得到大范围的应用。导致其问题的根本原因在于,首先在提取候选区域时占用大量的磁盘空间;其次,每个候选区都进入CNN网络导致了重复的相同的特征提取,造成了计算上的浪费。

FastRCNN[2]与RCNN[1]相比,在速度上得到了提升,其在候选区域的选择中,根据颜色(颜色直方图)相近的、纹理(梯度直方图)相近的、合并后总面积小的原则,对区域进行合并,此后,将所有已经存在的区域都作为输出,生成候选区域。其主要流程是,首先在图像中确定约1000-2000个候选框 (使用选择性搜索),然后将整张图片输进CNN网络,得到特征图,并找到每个候选框在特征图上的映射块,将此块作为每个候选框的卷积特征输入到之后的层。在此基础上,对候选框中提取出的特征,使用分类器判别是否属于一个特定类,最后对于属于某一特征的候选框,用回归器进一步调整其位置。尽管与RCNN[1]相比速度有所提升,但在候选区域提取上仍需过多的时间花费。

FasterRCNN[3]和RCNN[1]与FastRCNN[2]相比,其将目标检测的四个步骤,即候选区域生成,特征提取,分类器分类,回归器回归,这四步全都交给深度神经网络来做,并且全部运行在 GPU上,这大大提高了操作的效率。FasterRCNN[3]主要由两个模块组成:区域生成网络RPN候选框提取模块和FastRCNN[2]检测模块。主要流程就是首先将整张图片输进CNN网络,得到特征图之后,将卷积特征输入到RPN网络,得到候选框的特征信息,并对候选框中提取出的特征,使用分类器判别是否属于一个特定类,最后对于属于某一特征的候选框,用回归器进一步调整其位置。

MaskRCNN[5]是对原有的FasterRCNN[3]进行扩展,添加了一个分支,在现有的目标检测的基础上,实现对目标的像素级识别。其实现的关键之一是将FasterRCNN[3]中的感兴趣区域(ROI)映射到固定大小的矩形框中的插值方式,从最近邻插值方式变为双线性插值。此外,MaskRCNN[5]还替换了FasterRCNN[3]中使用的VGG网络,转而使用特征表达能力更强的残差网络。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版