

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
DeCAF:一个应用于常规视觉识别任务中的深度卷积激活特征
作者:Jeff Donahue lowast; , Yangqing Jia lowast; , Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell
摘要
我们评估是否从大型固定的一组目标识别任务中以完全监督的方式训练激活的深度卷积网络提取的特征可以重新利用到新的通用任务。我们的通用任务可能与最初训练的任务有很大不同,对于新任务来说,可能没有足够的标记的数据或未标记的数据来进行传统训练或适应深层次结构。我们调查和可视化关于各种这样的任务的深卷积特征的语义聚类,包括场景识别,域适应和细粒度识别挑战。我们比较依靠各种网络层面定义固定功能的功效,并报告显著优于几项重要视力挑战的新颖的结果。我们正在发布DeCAF,这些深层卷积激活功能的开源实现,以及所有相关的网络参数,使视觉研究人员能够在一系列视觉概念学习范例中进行深层表征的实验。
1 引言
发现为特定任务捕获突出语义的有效表示是知觉学习的关键目标。基于具有量化梯度滤波器的平坦特征表征的传统视觉表征的性能已经令人印象深刻但已经持续好几年了。长期以来一直认为,深层或分层的组合架构应该能够通过发现突出的集群,部件,中级特征和隐藏单元。这些模型在许多领域都能够比传统的手工工程表现更好,特别是那些尚未设计好的特征的模型。最近的研究结果表明,中等深度的无监督模型优于基于部分检测模型的最先进的梯度直方图特征。
深度模型最近已被应用于大规模视觉识别任务,通过卷积滤波器层的反向传播训练。 这些模型在具有大量训练数据的领域表现非常好,并且在数字分类任务方面取得了早期成功。 随着大规模来源的培训数据的出现,例如,和在线近似模型平均有效实施,他们最近在大规模识别挑战方面优于所有已知的方法。
然而,有限的培训数据,具有代表能力的全面监督的深层架构通常会戏剧性的过度拟合训练数据。 事实上,许多传统的视觉识别挑战具有很少的训练实例的任务; 例如,当一个用户定义了一个“飞”的具体的例子或者细粒度识别挑战,属性,或者领域适应。
在本文中,我们研究了深度卷积表示的半监督多任务学习,其中在一组相关问题上学习的表述,但应用于在新任务学习全面深度方面训练示例太少。 我们的模型可以被视为基于有监督的预训练阶段的传输学习的深层架构,或者简单地作为由一组预先定义对象识别任务的卷积网络定义的新的视觉特征DeCAF。 我们的工作也与计算机视觉中的表示学习计划有关,它形成了基于相关任务的学习分类器的中间表示。
我们的主要结果是经验去验证,一个在ImageNet上训练基于卷积网络权值的通用视觉特征优于标准基准对象识别任务的常规视觉表现,包括Caltech-101,办公领域适应数据集,加利福尼亚理工学院鸟类纹理识别数据集和SUN-397场景识别数据库。
此外,我们分析深卷积表示的语义特点,将从网络定义的视觉特征与常规表示进行比较。 在第3节中,与基线表示相比,我们可视化深卷积特征的语义聚类属性,发现的卷积特征似乎比常规特征更容易聚集语义主题。 最后,虽然传统的深度学习在计算上是昂贵的,但是我们注意到,与HOG或者KDES等现有特征相比,深度学习卷积特征运行时的资源计算量并不多。
2 相关工作
深层卷积网络在计算机视觉方面有悠久的历史,早期的例子显示了使用监督反向传播网络执行数字识别结果是成功的。 最近,这些网络,特别Krizhevsky等人提出的卷积网络。在由超过100万张图像组成的大型基准数据集上获得奖项,如ImageNet。
从卡拉昂(Caruana,1997)和苏伦(1996)开始,从相关任务学习在机器学习方面也有悠久的历史。 后来的作品如Argyriou等开发了用于优化相关任务表征的高效框架,Ando&Zhang探讨了如何将参数集合转换为新任务。 在计算机视觉中,基于相关任务的训练分类器集合的表示最近被证明在多种检索和分类设置中是有效的,特别是使用基于视觉类别检测器的分类器。 这种学习问题的一个关键问题是找到一种特征表示捕获对象类别的相关信息,同时丢弃与对象类别信息无关的噪声,如花纹。
使用深度学习的任务转移已经被广泛研究,特别是在无监督的环境中。 然而,在卷积网络中报告的这些模型的成功被限制在相对较小的数据集,例如CIFAR和MNIST,而对较大数据集的努力只取得了很小的成功。 我们调查监督训练的方法在计算机视觉和多媒体设置成功使用了银行范式通过学习在监督设置中的大规模数据,然后将它们转移到具有不同标签的不同任务。
为了评估由通用识别任务训练的深度卷积特征形成的表示的一般性,我们考虑对已知具有与ImageNet有一定程度的数据集偏差的数据集的训练和测试。 我们评估SUN-397场景数据集,以及用于直接评估域适应性能的数据集。 这将评估学习的功能是否可以通过捕获真实的语义信息而不是过度拟合到特定于域的外观来撤销域偏好。
3 深度卷积激活功能
在我们的方法中,首先在完全监督的环境中训练了深卷积模型是Krizhevsky等人。 然后,我们从网络中提取各种功能,并评估这些功能对通用视觉任务的功效。 尽管本节中的体系结构计算出的前瞻性确实在ILSVRC-2012上实现了最先进的表现,但仍有两个问题:
bull;可以将从CNN提取的特征推广到其他数据集?
bull;这些功能如何与深度进行比较?
我们通过下面的语义聚类的可视化以及下一节中对当前基线的实验比较来定性和定量地解决这些问题。
3.1 开源卷积模型
为了促进深度卷积特征的广泛分析,我们开发了一个Python框架,允许人们轻松地训练由各种类型组成的网络,并且可以有效地执行预训练网络,而不受GPU的限制(在许多情况下可能会妨碍部署训练有素的模型)。具体来说,我们采用开源Python软件包,例如numpy / scipy来进行有效的数值计算,计算重的代码在C中实现并链接到Python。在计算速度方面,当CNN模型以迷你模式执行时,我们的模型能够使用8核机处理大约40张图像每秒。
我们的实施,将是公开的。此外,我们将发布我们实验中使用的网络参数,以允许开箱即用的特征提取,而无需重新训练大型网络。这也符合监督转移的思想:人们可以将训练有素的模型视为与以前的视觉体验获得的现有知识的模拟,这有助于更有效地学习新任务。
作为我们特征的基础架构,我们采用Krizhevsky等人提出的深卷积神经网络架构。从而赢得了2012年ImageNet大型视觉识别挑战,验证错误率为40.7%。我们选择了这个模型,因为它在一个困难的1000路分类任务上的表现,假设神经元在其后期隐藏层中的激活可以作为各种对象识别任务的非常强大的特征。其输入是224times;224图像的中心的原始RGB像素强度值。这些值通过5个卷积层(沿着路径应用池和ReLU非线性)和3个完全连接的层向前传播,以确定其最终的神经元活动:在任务的1000个对象类别中的分布。我们的模型实例在ILSVRC-2012验证集上的误差率为42.9%,差2.2%达到40.7%。
我们参考Krizhevsky等,详细讨论了架构和培训协议,除了输入数据中的两个小差异外,我们紧随其后。 首先,我们忽略图像的原始宽高比并将其扭曲为256times;256,而不是调整大小和裁剪以保持比例。 其次,我们没有在整个数据集中执行添加RGB像素值的原理分量的随机倍数的数据增加技巧,而是提出作为捕获对照明和颜色变化的不变性的方式。
3.2 特征推广与可视化
我们将模型功能可视化,以深入了解DeCAF的语义能力和计算机视觉中通常采用的其他功能。特别地,我们将第3节中描述的功能与GIST特性和LLC特性进行了比较。
我们通过以下方式可视化特征:我们运行tSNE算法,以找到二维嵌入的高维特征空间的,并将它们绘制为根据其语义类别特定层次结构。我们在ILSVRC-2012的验证集上做了这一点,以避免过度拟合的影响(因为本文中使用的深度CNN仅在训练集上进行训练),并且还使用独立的数据集SUN-397,以评估数据集偏差如何影响我们的结果(参见例如(Torralba&Efros,2011),以更深入地讨论这个话题)。
人们会期望靠近输出(softmax)层的特征是线性可分离的,因此在t-SNE衍生嵌入上表示1000个类别并不是非常有趣(并且在视觉上相当困难)。
我们首先通过绘制更高级别的WordNet层次结构的标签嵌入来将模型的语义隔离视觉化。例如,视觉识别的强大功能应该将室内和室外集群的实例分开,即使通过CNN的监督训练没有明确的建模。图1显示了使用第一池层验证集上提取的的特征,第二个到最后一个完全连接层,在后者中显示了明确的语义聚类,但在前者中不显示。这与普通的深层学习知识兼容,第一层学习“低级”特征,而后者层学习语义或“高级”特征。此外,诸如GIST或LLC的其他功能未能捕获图像中的语义差异(尽管它们显示出有趣的聚类结构)。
更有趣的是,在图2中,我们可以看到SUN-397数据集上的表现最好的特征(DeCAF6)。 即使是这样,这些特征显示出非常好的语义类聚类(例如,室内与室外)。 这表明DeCAF是一般对象识别任务的一个很好的特征。考虑我们尝试检测到的对象类不在ILSVRC2012的原始对象池中的情况。这些功能集中在WordNet的几个中间节点这一事实,意味着这些功能是一个很好的起点,可以推广到其他类的。
3.3 时间分析
虽然通常认为卷积神经网络需要大量的时间来执行,但在文献中仍然缺少涉及多层的计算时间的详细分析。在本小节中,我们报告了使用decaf框架分析的计算时间的分解。
在图3(a)中,我们列出了花费在单个层上的计算时间,其中标记了最耗时的层。我们观察到卷积和完全连接层需要大部分时间运行,这是可以理解的,因为它们涉及大的矩阵与矩阵乘法。此外,不同层类型的时间分布(图3(b))揭示了一个有趣的事实:在诸如当前ImageNet CNN模型的大型网络中,最后几个完全连接层需要最多的计算时间,因为它们涉及大的变换矩阵。特别是当将它们分类为更大数量的类别或较大的隐藏层大小时,这表明可能需要某些稀疏的方法,例如贝叶斯输出编码来进行更大的分类对象类别数。
4 实验
在本节中,我们提供了评估DeCAF多个标准计算机视觉基准的实验结果,比较了许多可能的特征和分类方法。在每一个实验中,我们将第3节中描述的深卷积神经网络的第n个隐层的激活作为DeCAFn的特征。DeCAF7表示从最终隐藏层获取的特征即在通过最终完全连接层传播之前,产生类预测。 DeCAF6是DeCAF7之前的层的激活,DeCAF5是DeCAF6之前的层。 DeCAF5是通过网络的卷积层完全传播的第一组激活。我们选择不评估网络中任何早期的特征,因为较早的卷积层不太可能包含比从低级到中级本地信息的更高层次假设的更高级语义表示的更丰富的语义表示卷积层。因为我们正在调查使用网络的隐藏层激活作为特征,所有的权重都被冻结到了Berg等人学到的数据集。所有图像都使用第3部分中针对ILSVRC图像所述的步骤进行预处理,以256times;256剪裁224times;224图像。
我们提出了多个数据集上的结果,以评估DeCAF的基本对象识别,域适应,细粒度识别和场景识别的实力。这些任务与架构受到训练的每个任务有所不同,共同代表了当代视觉识别频谱。
4.1 对象识别
为了分析深层特征转移到基层对象类别识别的能力,我们对Caltech-101数据集进行评估。除了直接评估DeCAF6和DeCAF7之间的线性分类器性能外,我们还使用Hinton等人提出的称为“退出”的正则化技术来报告结果。在训练时间内,这种技术通过将给定层中的一半激活(这里是我们的特征)随机设置为0来实现。在测试时,所有激活都被乘以0.5。 Krizhevsky等人成功使用了在其网络的第6和第7层;因此,我们研究了当应用于从这些层导出的特征时该技术的效果。
在每个评估中,分类器,逻辑回归(LogReg)或支持向量机(SVM)被训练在每个类(包括后台类)的30个样本的随机集合上,并且对其余的数据进行测试,其中参数在训练数据的25个训练/ 5个验证子分部上的每个分裂交叉验证。左图中的结果以五个数据平均分割每个类别的平均精度来报告。
我们的顶级方法(基于验证精度)在具有压差的DeCAF6上训练线性SVM,测试精度为86.9%。DeCAF5的功能比DeCAF6或DeCAF7功能差得多,所以我们在本文中不再进一步评估。DeCAF7功能通常具有比此任务DeCAF6功能低约1-2%的精度。每个分类器特征组合的退化正则化技术均匀地提高了2%的结果。当对DeCAF进行训练时,SVM和逻辑回归分类器在此任务上执行大致相同。
我们比较我们的表现与Yang等人对这一研究的现状。一种采用5种传统手工图像特征的组合的方法,其后面是基于多核的分类器。我们在单一功能上训练线性SVM的表现最好的方法优于这种方法2.6%。我们的方法也胜过优于20%Jarrett等人的两层卷积网络。展示了我们功能使用的网络深度的重要性。请注意,与我们的方法不同,文献中的这些方法并没有隐含地利用像ImageNet这样的外部大型图像数据库。我们的方法在这些方法上的表现优势证明了在使用Caltech-101基准测试中可用的稀疏数据执行对象识别时,多任务学习的重要性。
我们还展示了上述两种DeCAF6的性能如何随着每个类别的培训案例数量而变化,如图4所示,右边是用固定参数训练并按照与之前相同的度量进行评估。我们的一次学习结果(例如SVM的33.0%)表明,通过DeCAF等足够强大的表现,通常能从一个积极的例子中获得有用的视觉类别模型。
4.2 域适应
我们接下来评估DeCAF用于域适应的任务
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[26377],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
