使用本地层和深度特征插值的基于CNN的快速目标跟踪外文翻译资料

 2022-12-18 15:55:38

Fast CNN-Based Object Tracking Using Localization Layers and Deep Features Interpolation

Al-Hussein A. El-Shafie Faculty of Engineering Cairo University

Giza, Egypt

elshafie_a@yahoo.com

Mohamed Zaki Faculty of Engineering Azhar University

Cairo, Egypt

azhar@eun.eg

  1. E. D. Habib

Faculty of Engineering Cairo University

Giza, Egypt seraged@ieee.org

Abstract—Object trackers based on Convolution Neural Network (CNN) have achieved state-of-the-art performance on recent tracking benchmarks, while they suffer from slow computational speed. The high computational load arises from the extraction of the feature maps of the candidate and training patches in every video frame. The candidate and training patches are typically placed randomly around the previous target location and the estimated target location respectively. In this paper, we propose novel schemes to speed- up the processing of the CNN-based trackers. We input the whole region-of-interest once to the CNN to eliminate the redundant computations of the random candidate patches. In addition to classifying each candidate patch as an object or background, we adapt the CNN to classify the target location inside the object patches as a coarse localization step, and we employ bilinear interpolation for the CNN feature maps as a fine localization step. Moreover, bilinear interpolation is exploited to generate CNN feature maps of the training patches without actually forwarding the training patches through the network which achieves a significant reduction of the required computations. Our tracker does not rely on offline video training. It achieves competitive performance results on the OTB benchmark with 8x speed improvements compared to the equivalent tracker.

Keywords- object tracking, CNN, computer vision, video processing, bilinear interpolation, classification-based trackers

    1. INTRODUCTION

Visual object tracking is a classical problem in the computer vision domain where the location of the target is estimated in every video frame. The tracking research field continues to be active since long period because of the several variations imposed in the tracking process, like occlusion, changing appearance, illumination changes and cluttered background. It is challenging for a tracker to handle all these variations in a single framework. Therefore, numerous algorithms and schemes exist in literature aiming to tackle the tracking challenges and improve the overall tracing performance [1]-[3].

A typical tracking system consists of two main models, motion model and appearance model. The motion model is employed to predict the target location in the next frame like using Kalman filter [4] or particle filter [5] to model the target motion. The motion model can also be simple like constraining the search space to a small search window around the previous target location and assuming the target

motion is small. On the other hand, the appearance model is used to represent the target and verify the predicted location of the target in every frame [6]. The appearance model can be classified to generative and discriminative methods. In generative methods, the tracking is performed by searching for the most similar region to the object [6]. In discriminative methods, a classifier is used to distinguish the object from the background. In general, the appearance model can be updated online to account for the target appearance variations during tracking.

Traditionally, tracking algorithms employed hand-crafted features like pixel intensity, color and Histogram of Oriented Gradients (HOG) [7] to represent the target in either generative or discriminative appearance models. Although hand-crafted features achieve satisfactory performance in constrained environments, they are not robust to severe appearance changes [8]. Deep learning using Convolution Neural Networks (CNN) has recently achieved a significant performance boost to various computer vision applications. Visual object tracking has been affected by this popular trend in order to overcome the tracking challenges and obtain better performance than that obtained by hand-crafted features. In pure CNN-based trackers, the appearance model is learned by a CNN and a classifier is used to label the image patch as an object or background. CNN-based trackers [8]-[10] achieved state-of-the-art performance in latest benchmarks [11], [12] even with simple motion models and no offline training. However, CNN-based trackers typically suffer from high computational loads because of the large number of the candidate patches and the training patches which are required in the tracking phase and the training phase respectively.

In this paper, we address the speed limitations of the CNN-based trackers. We adapt the CNN not only as a two- label classifier, object and background labeling, but also as a five-position classifier for the object position inside the candidate patch. This scheme allows achieving coarse object localization with less number of candidate patches. In addition, we exploit a bilinear interpolation scheme of the CNN feature maps already extracted in the coarse localization step for two purposes: first for the fine object localization, and second for the CNN feature extraction of the training patches. The computation of the bilinear interpolation is significantly less than that of extracting a new feature map which would speed-up the required

processing time. Moreover, we did not perform offline training on any tracking dataset for our tracker.

This paper is organized as follows: Section II gives an overview of the CNN-based trackers and the speed bottlenecks in these

剩余内容已隐藏,支付完成后下载完整资料


外文翻译译文

使用本地层和深度特征插值的基于CNN的快速目标跟踪

Al-Hussein A. El-Shafie1

Mohamed Zaki2

S.E.D.Habib2

摘要:基于卷积神经网络(CNN)的抽象对象跟踪器已经在最近的跟踪基准上实现了最先进的性能,同时它们具有较慢的计算速度。高计算负荷来自候选者的特征地图的提取和每个视频帧中的训练补丁。候选和训练补丁通常分别随机地放置在先前目标位置和估计目标位置周围。在本文中,我们提出了新的方案来加速基于CNN的跟踪器的处理。我们将整个感兴趣区域一次输入CNN以消除随机候选补丁的冗余计算。除了将每个候选补丁分类为对象或背景之外,我们还调整CNN以将对象补丁内的目标位置分类为粗略定位步骤,并且我们将CNN特征映射的双线性插值用作精细定位步骤。此外,利用双线性插值来生成训练补丁的CNN特征图,而不实际通过网络转发训练补丁,这实现了所需计算的显着减少。我们的跟踪器不依赖于离线视频培训。与等效跟踪器相比,它在OTB基准测试中实现了竞争性的性能提升,速度提高了8倍。

关键词:对象跟踪,CNN,计算机视觉,视频处理,双线性插值,基于分类的跟踪器

1.绪论

视觉对象跟踪是计算机视觉领域中的经典问题,其中在每个视频帧中估计目标的位置。 跟踪研究领域由于在跟踪过程中施加的若干变化(例如遮挡,改变外观,照明变化和杂乱的背景)而长期备受关注。 对于跟踪器来说,在单个框架中处理所有这些变化是具有挑战性的。 因此,文献中存在许多算法和方案,旨在解决跟踪挑战并提高整体跟踪性能。[1] - [2]

典型的跟踪系统包括两个主要模型,运动模型和外观模型。运动模型用于预测下一帧中的目标位置,如使用卡尔曼滤波器[4]或粒子滤波器[5]来模拟目标运动。运动模型也可以是简单的,例如将搜索空间约束到前一目标位置周围的小搜索窗口并假设目标运动很小。另一方面,外观模型用于表示目标并验证每个帧中目标的预测位置[6]。外观模型可以分为生成和判别方法。在生成方法中,通过搜索与对象最相似的区域来执行跟踪[6]。在判别方法中,分类器用于将对象与背景区分开。通常,可以在线更新外观模型以考虑跟踪期间的目标外观变化。

传统上,跟踪算法采用自定义的特征,如像素强度,颜色和方向梯度直方图(HOG)[7]来表示生成或辨别外观模型中的目标。尽管自定义的特征在受限环境中获得了令人满意的性能,但它们对于严重的外观变化并不稳健[8]。使用卷积神经网络(CNN)的深度学习最近实现了对各种计算机视觉应用的显着性能提升。视觉对象跟踪受到这种流行趋势的影响,以克服跟踪挑战并获得比手工制作的功能获得的更好的性能。在纯CNN跟踪器中,外观模型由CNN学习,分类器用于将图像块标记为对象或背景。基于CNN的跟踪器[8] - [10]在最新基准测试[11],[12]中实现了最先进的性能,即使是简单的运动模型也没有离线训练。然而,基于CNN的跟踪器通常遭受高计算负荷,因为分别在跟踪阶段和训练阶段中需要大量候选补丁和训练补丁。

在本文中,我们解决了基于CNN的跟踪器的速度限制。我们不仅将CNN调整为双标签分类器,对象和背景标签,还将其作为候选补丁内对象位置的五位分类器。该方案允许用较少数量的候选补丁实现粗略的对象定位。此外,我们利用已经在粗略定位步骤中提取的CNN特征图的双线性插值方案有两个目的:首先是精细对象定位,第二是用于训练补丁的CNN特征提取。双线性插值的计算明显小于提取新的特征映射的计算,该特征映射将加速所需的处理时间。此外,我们没有为我们的跟踪器执行任何跟踪数据集的离线培训。

本文的结构如下:第二部分概述了基于CNN的跟踪器和这些系统中的速度瓶颈。我们提出的计划见第III节。第四节展示了OTB基准测试的实验结果,最后,第五节总结了我们的工作。

2. 基于CNN的跟踪器概述

随着深度CNN在图像分类[13],[14]和物体检测应用[15],[16]方面的巨大成功,最近在对象跟踪领域的许多工作采用了深度CNN并取得了最新技术水平。性能。在跟踪领域存在不同的CNN用例。参考文献[17] - [19]采用具有判别相关滤波器(DCF)的CNN,其中这些基于DCF的跟踪器的回归模型由深CNN提取的特征图训练。参考文献[20]-[22]采用了连体结构,其中两个相同的CNN分支用于同时从相同的帧或连续帧生成两个补丁的特征映射。然后将两个分支的输出相关联以定位目标。参考文献[8]-[10],[23],[24]是基于CNN的纯跟踪器,在生成要素图之后添加全连接的层,以将输入补丁分类为对象或背景。最后通常使用softmax层对候选补丁进行评分,并选择最高对象得分作为新目标位置。这些纯粹的基于CNN的跟踪器在最新的基准测试中实现了最先进的性能,我们在本文的其余部分重点介绍了这种类型的跟踪器。

图1显示了典型的基于CNN的跟踪器。在每个帧中,生成具有从高斯分布采样的不同平移和尺度的候选贴片。高斯分布的平均值是目标的先前位置和比例。深度特征由每个补丁的卷积层提取,并由全连接的(fc)层进行评分。

图1 典型的CNN跟踪器

对于基于CNN的跟踪器的训练,通常利用传输学习,其中网络参数由在ImageNet [25]等大规模分类数据集上预训练的另一网络初始化。参考文献[8]-[10]采用离线训练模型在跟踪前更新网络参数。然而,收集用于视觉跟踪的大型训练数据集是困难的。因此,最近的作品[23],[24]省去了离线训练步骤,仍然取得了最先进的表现。这些技术依赖于增加初始帧中训练的迭代次数,因为目标位置是已知且准确的。另一方面,在线训练对于应对目标的潜在外观变化是必要的。通常仅更新全连接层的参数并在整个跟踪过程中保持卷积层的参数固定,因为卷积层将具有通用跟踪信息,而全连接的层将具有目标-背景特定信息。 [8]提出的短期和长期模型更新也被用于其他基于CNN的跟踪器[9],[10],[23],[24]。定期执行长期更新,而在跟踪期间目标分数严重下降时执行短期更新。在每个帧中获得在线训练所需的训练数据,其中生成并存储正片和负片的深度特征。正片和负片具有联合交叉(IoU)重叠,估计的目标位置分别大于和小于某些阈值。当需要更新模型时,随机采样存储的正负特征图以更新参数。

基于CNN的跟踪器中的主要计算步骤可以分为候选评估,收集训练数据和模型更新。在典型情况下以固定间隔执行模型更新,并且与候选和训练数据处理相比,对计算时间的影响较小。基于CNN的跟踪器主要受慢速影响,因为在卷积层中进行计算以获得候选的深度特征和每帧训练补丁。然而,可以注意到会存在大量的计算冗余,因为候选和训练补丁是随机生成的,具有大的潜在重叠。因此,我们在下一节中提出了新的方案,以减轻冗余计算并加速基于CNN的跟踪器所需的处理时间。

3. 改进的基于CNN的跟踪器

3.1 目标定位

尽管CNN通常具有局部最大池层以允许CNN在空间上对输入数据不变,但是中间特征图实际上并不对输入数据的大变换不变[26]。因此,我们利用网络的这种典型行为,这样我们不仅可以将补丁分类为对象或背景,还可以对补丁内对象的位置进行分类。有四个类,如向上,向下,向右和向左表示补丁内的目标位置,我们可以用较少数量的候选者来定位目标。此外,我们不会像之前的工作那样生成随机候选补丁以覆盖感兴趣区域(ROI),但是我们生成固定间距补丁以覆盖整个ROI,如图2所示。该方案防止了潜在的冗余计算。生成随机补丁并降低错过目标的风险。我们还建议通过卷积层转发整个ROI,以节省一些冗余计算,而不是分别转发每个补丁。

这个想法类似于[16],[27]中在物体检测领域中提出的,其中整个图像通过网络而不是提议区域转发。

图2 随机补丁与固定间距补丁

在基于CNN的跟踪器中通常通过将候选补丁的平均位置与顶部对象得分进行来执行目标定位,而在我们的方案中,首先基于定位网络移动被分类为对象的补丁。 。选择与其他对象块具有最高重叠的块,作为精细定位步骤的输入,其中我们利用特征图的双线性插值。 [26]首次提出双线性插值用于实现空间变换器网络,然后[28]采用双线性插值用于物体检测应用的ROI对准方案。假设目标由3x3xd特征映射表示,如图3(a)所示,其中d是特征深度,我们提取大于目标大小的区域的特征映射,以便得到5x5xd特征映射,如图3(a)所示。图3(b)。我们总共有9个3x3网格。每个3x3网格从其邻居移位dx和/或dy。 dx和dy的值取决于网络结构。因此,我们可以获得所有图像块的特征图,其具有从中心通过双线性插值测量的0到dx或dy的位移,而不通过卷积层转发图像块。通过双线性插值从特征图中的四个附近点(例如图3(c)中的点*)计算任何点值。

图3 特征映射插值

3.2 网络训练

我们重新使用在定位阶段中获得的特征图,通过应用双线性插值来提取正负训练片的特征图。实际上,正面补丁被细分为定位补丁。虽然我们在网络中添加了更多的分类类用于本地化,但是所需的计算并没有增加太多,因为定位补丁不是通过整个卷积层转发而是利用双线性插值。

3.3 规模变化

参考文献[8]通过生成具有从高斯分布绘制的随机比例的训练和候选补丁来处理尺度变化,并且通过整个网络转发这些补丁以获得特征图。 然而,在我们提出的方案中,我们仅提取三个固定尺度的特征图{1,max_scale_up,max_scale_down}。 然后,我们通过在两个尺度上应用线性插值,获得该范围内任何所需尺度的特征图,用于候选或训练补丁。 因此,我们不是通过卷积层转发在空间和比例域中随机生成的图像块,而是以三个固定比例提取更大图像块的特征图。 我们执行双线性插值以获得所需位移处的特征图并执行线性插值以获得所需比例的特征图。 图4示出了获得不同尺度的图像块的特征图的方案。

图4 固定比例特征图的插值

4. 实施细节

4.1 网络结构

我们从MDNet_N实现开始,作为我们工作的基准。 MDNet_N与MDNet [8]相同,但没有离线训练和边界框回归。 卷积层(conv1-3)的参数由VGG-M [29]模型初始化,完全连接的层由随机值初始化。 在[8]中,对象大小(htimes;w)被裁剪并填充到网络输入大小107times;107,使得这个固定大小107times;107,相当于(107divide;75)的图像块。times;(Htimes;W)。 对于107times;107的网络输入,从conv3生成的特征映射的空间大小为3times;3。 我们在图5中显示的网络类似于MDNet,但我们将fc7-9添加为定位网络,并允许不同的输入大小在需要时获得大小为3times;3,5times;5,7times;7等的特征图。 本地化层根据补丁内部对象的位置(上,下,右,左和中)将正补丁分为五类。

4.2 初始框架培训

为了生成对象和定位图层的训练数据,在初始帧中,我们生成三个固定比例尺寸为139times;139的输入的特征图:1.1.2和1.2-1,conv3的输出在三个固定比例下为5x5。初始对象实际上由尺度为1的内部3x3特征映射表示。因此,我们可以利用双线性插值并为位移范围从0到(16divide;75times;w)和(16divide;75times;h)的任何补丁生成特征映射。分别在x和y方向上,并且具有1.2-1至1.2的不同尺度。以与MDNet_N相同的方式从高斯分布生成对象训练样本,使得具有初始目标位置的IoU大于0.7。定位训练样本由相当于每个本地化类的五个高斯分布生成,并且IoU也应该大于0.7。为了生成背景的训练数据,在初始帧中,我们将背景训练数据分为两种类型,即近样本和远样本。紧密样本是接近初始目标位置的样本,因此,我们可以应用用于对象和定位训练样本的相同插值方案。对于远背景样本,我们通过将样本转发到所有卷积层来正常生成特征图。所有背景训练样本的初始目标应该具有小于0.5的IoU。我们的网络由随机梯度下降(SDG)训练,小批量大小分别为128和65,分别用于fc4-6和fc7-9以及初始帧中的90次迭代。

图5 网络结构

4.3 目标追踪

我们通过卷积层转发以前一个目标位置为中心的整个ROI(4wtimes;4h)。我们在进入网络之前将此ROI裁剪为299times;299并相应地获得15times;15 conv3特征图。由于对象由3x3 conv3特征映射表示,我们将获得169个空间大小为3x3的特征映射。这169个特征图表示分别在x和y方向上从中心位移[ktimes;(16divide;75)times;w]和[ktimes;(16divide;75)times;h]的图像块,其中k是[ -5:5]。检查每个3x3特征映射的对象得分,如果它大于0.5,则将基于本地化网络获得等效补丁的新位置。选择与其他对象补片具有最高重叠的补丁用于下一个精细定位步骤。

在精细定位步骤中,我们需要找到更精细的位置和更新的对象比例。我们计算以粗略位置为中心的新5x5特征图,分别为1.05和1.05-1两个等级。我们生成了100个精确样本,这些样本在x和y方向上以固定值移位,并且从高斯分布中绘制出不同的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20116],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版