- 选题背景和意义:物体检测是计算机视觉中的经典问题之一,其任务是用框去标出图像中物体的位置,并给出物体的类别。物体检测对于人眼来说并不困难,通过对图片中不同颜色、纹理、边缘模块的感知很容易定位出目标物体,但计算机面对的是RGB像素矩阵,很难从图像中直接得到狗和猫这样的抽象概念并定位其位置,再加上物体姿态、光照和复杂背景混杂在一起,使得物体检测更加困难。从传统的人工设计特征加浅层分类器的框架,到基于深度学习的端到端的检测框架,其中包括专注精度的Faster RCNN、RFCN相关系列,以及专注速度的YOLO系列,也有更专注于精度和速度的结合,主要代表有RefineDet、RFBNet等。计算机视觉的应用前景广阔,其中一个比较重要的应用领域就是自主车辆的视觉导航,还没有条件实现像人那样能识别和理解任何环境,完成自主导航的系统。因此,人们努力的研究目标是实现在高速公路上具有道路跟踪能力,可避免与前方车辆碰撞的视觉辅助驾驶系统。而因为车辆行驶过程中速度较快,出现在视野中时会显得体积较小,难以识别,所以小目标检测的则尤为重要,由于其分辨率和信息量有限,并且要求做到精度和速度兼顾,是计算机视觉领域的一项具有挑战性的任务。
-
课题关键问题及难点:
- 小物体的检测和识别由于信息量的有限性(在视频图像中像素数比较少,比重较小),容易由于分辨率的关系导致检测难度加大。
- 物体识别中精度和速度的设计往往难以兼顾,常常容易专注与一方面而导致另一方面的数据不尽人意,两者兼顾也是需要关注的难点。
- 深度学习的神经网络的搭建,如何通过其对视频图像中得到的信息进行处理,难点在于架构的设计和参数的选取,这些都是需要注意的问题。
- 文献综述(或调研报告):
在参考了任务书中的相关文献,包括其中等人对课题有关的视频图像中小物体检测做了大量相关研究之后,我对小物体检测和识别尤其是其中上下文信息引入和多尺度表示的情况有了比较深入的了解。
由于小目标在图像中分辨率和信息的有限性,对其进行可靠的检测是一项非常具有挑战性的任务。最早提出了一种使用单个深度神经网络来检测图像中的目标的方法。这种方法命名为SSD,将边界框的输出空间离散化为不同长宽比的一组默认框和并缩放每个特征映射的位置。在预测时,网络会在每个默认框中为每个目标类别的出现生成分数,并对框进行调整以更好地匹配目标形状。此外,网络还会结合不同分辨率的多个特征映射的预测,自然地处理各种尺寸的目标。相对于需要目标提出的方法,SSD非常简单,因为它完全消除了提出生成和随后的像素或特征重新采样阶段,并将所有计算封装到单个网络中。这使得SSD易于训练和直接集成到需要检测组件的系统中。PASCAL VOC,COCO和ILSVRC数据集上的实验结果证实,SSD对于利用额外的目标提出步骤的方法具有竞争性的准确性,并且速度更快,同时为训练和推断提供了统一的框架。
之后人们对于小物体检测识别的思路有一部分建立在SSD基础上,并以此为基础进行更深入的研究。在物体识别检测中,有两个无法忽视的要素:速度和精度,这两者始终是物体识别方法中最为关键的评价要素,各种各样的方法始终在精度和速度之间权衡。
而在精度的提高上目前大概有两种改进方法,其中一种方法是放大目标区域,以更好的拟合预训练网络的特征, J. Redmon等人使用的就是这种方法,但是放大目标区域的这种方法有一个不容忽视的缺点,那就是会大大增加计算量,因此在快速识别检测小物体的过程中不推荐使用。
而另一种则是利用上下文信息,将附加上下文信息引入到通用对象检测中的方法。现在已经有许多方法证明利用上下文信息能带来相当大的改进。例如傅成阳等人在SSD的基础上,将一个最先进的分类器(Residual-101)和一个快速检测框架SSD相结合,并且在其上添加了反卷积层,最终得到了结果达到了当时在PASCAL VOC上单一网络检测的最高精度,同时也保持与当时最先进检测的速度,特别是在小物体的处理上,准确性的体现更为突出,最后他们将该系统称为DSSD(反卷积单镜头探测器),但是由于专注使用Residual-101提高精度,不可避免地牺牲了大量速度。
而曹桂梅等人提出了一种基于多特征融合的小目标识别方法。利用两个设计好的模块实例化特征融合方法,其中一个模块用于减少无用噪声的干扰,另一个模块强者融合多级特征,增强有用上下文的有效性,最后结果表明,精度比基准SSD提高了1.6,1.7个点,而测试速度也符合实时检测的需要。
这些研究包括以前许多研究都表明上下文信息在对象检测任务中起着重要的作用,特别是对于小对象。引入上下文信息的常用方法是利用卷积网络中的组合特征图进行预测。例如,ION[2]使用ROI池化[8]从每个区域提案的多层中提取VGG16[12]特性,并将其作为固定大小的描述符连接起来进行最终预测。HyperNet[3]、GBD-Net[13]和AC-CNN[14]也采用了类似的方法,使用每个区域建议的组合特征描述符进行目标检测。由于组合的特征来自不同的层,因此它们具有不同的输入图像抽象级别。因此,每个区域建议的特性描述符都包含细粒度的本地特性和上下文特性。但是,这些方法都是基于区域建议的方法,将合并后的特征图中的特征描述符集合在一起,增加了内存占用,降低了检测速度。
同时多尺度表示已被证明对许多检测任务都很有用。以前的很多检测架构都使用单尺度表示,如RCNN[6]、Fast RCNN[8]、Faster RCNN[9]和YOLO[15]。他们通过卷积神经网络最顶层提取的特征来预测置信度和定位,这增加了最后一层的沉重负担。不同的是,SSD使用多尺度表示,从多个层检测具有不同尺度和长宽比的对象。对于较小的对象检测,SSD使用较浅层的特性,而利用较深层的特性来检测较大的对象。为了进一步提高SSD的精度,特别是对于小目标,DSSD在SSD的末端增加了额外的反褶积层。通过整合各个预测层及其反褶积层,注入上下文信息,使得对小目标的预测更加准确。但是由于曹桂梅等人在基于区域的对象检测器中引入上下文信息的方法也是多尺度表示,因此在预测对象定位和置信度方面与SSD有很大的不同。
参考文献
[1] Guimei Cao, Xuemei Xie, Wenzhe Yang, Quan Liao, Guangming Shi, Jinjian Wu. Feature-Fused SSD: Fast Detection for Small Objects. ICGIP2017
