基于RGBD数据的地面环境认知算法设计与实现文献综述

 2022-11-27 15:51:23

毕业设计(论文)开题报告

(基于RGBD数据的地面检测算法设计与实现)

1.结合毕业设计(论文)课题情况,根据所查阅的文献资料,每人撰写 2000字左右的文献综述:

图像分类、目标检测、语义分割是计算机视觉的三大基本任务。图像的语义分割包含了图像分割和目标识别两个部分,其目的是将图像分割成几组具有某种特定语义含义的像素区域,并识别出每个区域的类别,最终获得一幅具有像素语义标注的图像。

1.1基于深度学习的语义分割的经典算法

传统基于机器学习的语义分割算法,是对输入图像中具有独特性质的区域块进行特征提取,通过一定规则建立图像特征与高层语义之间的概率图模型,通过学习得到模型参数。这列方法,精度较高但鲁棒性较差,且大多适用于特定场合。卷积神经网络是一种多层的监督学习网络,应用在在计算机视觉领域表现出了很好的鲁棒性。CNN进行语义分割的方法是将像素周围的小区域作为输入,进行训练检测,这种算法为语义分割提出了新的解决方案,但其存储开销大,计算效率低下。2015 年,Jonathan Long 等[1]提出了一种全连接卷积神经网络(Fully Convolutional Networks, FCN),将普通的分类网络的全连接层替换为对应尺寸的卷积层,再通过上采样将特征图恢复成原始输入图像尺寸。FCN能够对图像进行像素级的分类,语义分割算法正式进入深度学习时代。Alex Kendall 等[2]提出了 SegNet 网络,一种“编码器-解码器”的结构。编码过程中,通过卷积提取特征,利用池化过程增大感受野。在解码过程中,使用了在相应编码器的最大池化过程中计算的池化索引来执行非线性上采样,减少了对上采样过程的学习。Liang Chen 等[3]提出的 DeepLab 网络,使用了空洞卷积进行上采样,在不增加参数量的基础上增大感受野,能够更好地提取语境信息,并结合了马尔科夫随机场的概率模型来提高物体的边界信息还原精度。该算法利用概率模型来还原边界信息,实时性很差。Chao Peng 等[4]提出了全局卷积网络(Global Convolutional Network, GCN),引入了基于残差的边界细化模块,进一步提高目标边界附近的定位性能。通过增大卷积结构内核尺寸来平衡特征提取和细节还原性能。

1.2基于深度学习的语义分割的轻量化模型

深度神经网络模型在语义分割、图像分类等机器视觉任务中,取得了一定成就。然而,由于存储空间和功耗的限制,神经网络模型在嵌入式设备上的存储与计算仍然是一个巨大的挑战。

ENet[5]是基于SegNet改进的实时分割的轻量化模型,论文中将pooling操作和卷积操作并行,然后堆叠到一起,加速了Initial Block的inference时间;将nxn的卷积核拆分为nx1和1xn的卷积核,从而有效的减少了参数量和计算量。Xception [6]是基于 Inception 系列网络的基础上,主要采用鉴深度可分卷积(depthwise separable convolution)[7]思想,先对图像进行“1X1”的卷积处理,卷积后生成的所有特征图按通道全部分离(通常为 3 个),每一个通道对应进行“3X3”卷积操作,最后将各个通道简单相加。这样构建的网络,参数减少,计算复杂程度降低,模型的计算速度提高。[8]论文提出了一种极其高效的用于实时语义分割的网络框架,深度特征聚合网络DFANet包含三个部分,轻量级的主干网络,子网聚合模块和跨阶段的聚合模块。网络以轻量级Xception网络作为主干网络,末尾加上一个全连接注意力模块保留最大的感受野;子网聚合模块在浅层特征图进行上采样以作为输入到下一层网络中调整预测结果;子阶段聚合模块融合了不同阶段的特征表示,通过结合相同维度的各层结果进行感受野和高层结构细节信息的传递。 [9]论文提出一个包含不对称编解码结构的轻量级的网络LEDNet用于实时语义分割。其中编码结构采用ResNet作为主干网络,修改残差结构加入通道分类和混洗操作;解码结构中设计了注意力金字塔网络APN来进一步减少网络的计算复杂度。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版