基于深度学习的手写数字识别程序设计外文翻译资料

 2022-10-16 16:12:26

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


深度学习

深度学习使得多个处理层组成的计算模型可以学习多层抽象后数据的表示方式。这类方法大幅提高了语音识别、图像识别、目标探测及其他领域如药物发现和遗传学等多个方向最前沿的发展。深度学习通过运用后向传播算法来指明一个机器应当如何通过之前层次学习出的数据描述来改变其内部用来计算每一层数据描述的参数值,从而形成一个精细复杂的结构。深度卷积网络已经为图像、视频、语音及音频的处理带来了巨大的突破,而递归网络则为时序数据,如文本及语音的处理,指明了新的方向。

从网络搜索,到社交网络的内容过滤,到电子商务网站的推荐系统,再到它在相机和智能手机这样的消费产品中更多的存在,机器学习技术在多个方面为当代社会发展提供了动力。机器学习系统被用来在图像中识别目标物体,将语音注释为文字,匹配用户感兴趣的新的项目、言论或产品,以及选择相关的搜索结果。在这些应用中,一类被称作深度学习的技术更多地出现在了人们眼前。

传统的机器学习技术由于对原始数据的处理能力不足而受到限制。几十年来,建立一个模式识别或者机器学习系统都需要细心的工程师和大量的相关领域的专家来设计特征提取器,将原始数据(如图像的像素值)转换为一种合适的内在表示方法或者是特征向量,使其能够作为输入数据被以分类器为代表的学习子系统来对其中的模式检测和分类。

表示学习是一类使得机器能够通过输入的原始数据来自动获取其在检测或识别时所需要的数据表示的方法。深度学习方法则是一些具有多层次数据表示的表示学习方法,这些表示通过用非线性的简单模块将数据从一个层次(从原始数据开始)的表示转换为更高层次、更抽象的表示来逐渐获得。有了这种转换足够多的组合,机器就可以学习到非常复杂的函数关系。对于分类任务来说,高层次的数据表示放大了输入中区分度高的方面,抑制了无关的差别。比如,对于一幅以像素强度数组形式输入的图像,较为典型的第一层输出会表示出图像中某些角度或位置上边缘的存在与否。而典型的第二层输出则可以通过认出特别的边缘排列以及忽略其细小的位置差异来探测出一些图案。第三层可能可以将这些图案组合成为一个熟悉的物体的一部分,接下来的层次将检测由这些部分组成的物体。深度学习的关键在于,这些特征并非由工程师设计,而是由通用的学习步骤从数据中学习。

深度学习正在通过解决人工智能团队多年来无法破解的问题突出自己主要的优势。它已经展现出从高维数据中建立复杂而精细的结构的强大能力,因此适用于科研、商业及政府中的多个领域。除了打破图像识别与语音识别的记录之外,它也已经在预测潜在药物分子结构的活性,分析粒子加速器数据,重建脑电路以及预测非编码DNA的变异对基因表达和疾病的影响上击败了其他的机器学习技术。可能会更令人惊喜的是,机器学习已经在与自然语言理解有关的多个任务中产生了极度令人信服的结果,尤其是话题分类、情感分析、提问以及翻译问题。

由于几乎不需要动手解决的工程问题,所以深度学习可以轻易地利用大量有用的计算结果和数据,我们认为其在不远的将来就能够取得巨大的成功。正在为深度神经网络发展的新的学习方法与结构更是会加速这个进程。

监督学习

最常见的机器学习的形式是监督学习,无论是不是深度结构。设想我们想建立一个用来分类图像的系统,这些图像中会有一个房子,一辆车,一个人或者一只宠物。一开始,我们先收集大量标记过的含有房子、车、人和宠物的相关图片数据。在训练期间,这个分类器会被展示一幅图片,然后产生一组向量形式的输出,其中每一个值对应一个类别的分数。我们希望让想要的分类结果具有各类中最高的分数,但在训练前这几乎是不可能发生的。我们计算度量输出值与理想输出值的误差(或距离)的目标函数。分类器接下来则会修正其内部的可调节参数,来降低这个误差值。这些通常被称为权值的可调节参数是一些实数,可以被看作是用来调节分类器的输入-输出函数的旋钮。在一个典型的深度学习系统中可能会有上亿个这样的可调节权值,以及上亿个用来训练分类器的加了标签的样本。

为了适当地调节权值向量,学习算法计算出一个梯度向量,用来表示如果某个权值增加或减少一个很小的量时,误差将会上升或下降多少。接下来,权值向量将会被按照与梯度向量相反的方向调节。

而目标函数由各样本的计算结果取均值得到,它可被视为某个在权值向量所在的高维空间中高低起伏的地形图。负的梯度向量表示了在地形中能够取得最小值并使平均误差变小的最为陡峭的下降方向。

在实际情况下,大多数实践者运用了一种被称作随机梯度下降的方法。这种方法包括了以下几步:将几个样本输入到分类器中,计算输出和误差,计算这些样本对应的平均梯度值,然后据此调整权值。整个过程对训练集中的多个小样本集重复进行,直到目标函数停止下降。因为每个小样本集提供了一个对整个样本集平均梯度的加噪估计,所以方法中有随机二字。与许多精致的多的优化方法相比,这个简单的过程通常能以惊人的速度找到一个较好的权值组合。在训练后,整个系统的性能由另外的一些样本来判定,这些样本被称作测试集。用这样的方法,可以测试整个系统的泛化能力——即它由在训练中未曾见过的输入得出合理的结果的能力。

在目前许多可行的机器学习应用中线性分类器都被放在了手动提取的特征的顶端。一个二类线性分类器计算一组特征向量成分的加权和。如果加权和大于阈值,那么输入便被划分至某个类别中。

从20世纪60年代以来,我们便已知道线性分类器只能将输入集所在的空间划分为多个简单的区域,即超平面划分的半空间。但像图像和语音识别这样的问题需要输入-输出函数在对特定的细小的差异(如白色的狼和像狼一样的被称作萨摩耶的白色的狗的区别)十分敏感的同时,还能忽略掉无关的差异,如某个物体的位置、方向或亮度,或一段语音中的音调与口音。在像素的层面,两张萨摩耶的图片会由于其姿势、环境的差异而差别很大,但一张白狼的图片与一张萨摩耶的图片则可能会因为相同的位置和相似的环境而非常相似。一个线性分类器,或者是任何一种对于原始像素的浅层分类操作都不可能分辨后者中的萨摩耶与白狼,而将前两张的萨摩耶分到一类。这就是浅层分类器需要一个能够解决选择性与不变性的两难问题的极佳的特征提取器的原因——能够对图像中与辨识很重要的方面明察秋毫,却又能对无关的方面,比如动物的姿势,视而不见。为了让分类器更加强大,我们可以使用通用的非线性特征,如核函数法,但那些由高斯核函数产生的通用特征并不能使学习者从训练样本中进行足够好的归纳。传统的选项是人工设计好的特征提取器,而这需要大量的工程技巧和专业知识。但如果用一个通用的学习步骤就能得到足够好的特征,那这些工作都可以避免。而这正是深度学习最为关键的优势所在。

一个深度学习结构是对多层的简单模块的堆叠,这其中的所有模块(或大部分)都被用来学习,许多被用来计算非线性的输入输出映射关系。在整个结构中,每个模块都将自己的输入转换为选择性与不变性都更强的描述。有了多个非线性层,比如5到20层,一个系统可以实现对其输入的极度复杂的函数映射,同时还能对局部细节极其敏感,如区分萨摩耶与白色的狼,以及忽略对大量的无关差异,如背景、姿势、光照和周围的物体。

通过后向传播训练多层结构

从模式识别早期开始,研究者们的目标便是将人工提取的特征替换为可训练的多层网络。然而,尽管很简单,这样的看法知道80年代中期才开始被逐渐理解。就像它所展现的一样,多层结构可以用简单的随机梯度下降方式来训练。只要这些模块是其输入及权值的相对平滑函数,人们就可以通过后向传播方法计算梯度。对此能够进行并有效的想法在70年代到80年代间被多个不同的小组独立发现。

后向传播方法这样一个通过多层结构模块的权值来计算目标函数的梯度的方法只是一个简单的对于导数中链式法则的应用而已。其最重要的内容是目标函数关于一个模块输入的倒数(或梯度)能够通过从后向前由此模块输出的梯度(或是后一个模块的输入)来计算得出(图1)。可以通过重复运用后向传播方程来从最顶端的输出 (神经网络的输出层)一直向其底部(神经网络的输入层)传递梯度值。一旦计算出这些梯度值,就可以很直接地计算关于每一模块权值的梯度值。

许多深度学习相关的应用运用前向传播神经网络结构(图1),将固定大小的输入(如一张图片)映射到固定大小的输出(如几类中每一类的概率)。从某一层到下一层,一些神经单元计算来自上一层的输入的加权和,并在通过一个非线性函数后输出结果。目前,最流行的非线性函数是修正线性单元(ReLU),即一个简单的半波整流器 .在过去的几十年,神经网络使用如 或 这样的平滑非线性函数,但ReLU一般能使大大加快训练多层网络的速度,可以省略掉深度监督网络训练中的非监督预训练过程。根据传统,不在输入层及输出层的单元被称为隐藏单元。隐藏层可以被视为用来将输入进行非线性变形,使得对最后一层各类别线性可分(图1)。

在90年代后期,神经网络和后向传播被机器学习社区放弃,并被机器学习和语音识别社区无视。人们广泛认为,通过很少的先验知识学习有用的多阶段生成的特征提取器根本是不现实的。尤其是人们还普遍认为简单的梯度下降会被困在局部最小值中——权值被配置为任何微小的调整都无法减少平均误差的情况。

在实践中,大规模网络中较差的局部最小值很少成为真正的问题。无论权值的初始值如何,整个系统几乎总是能达到非常接近最优解的答案。近期的理论和实践研究结果表明局部最小值在整体上并不是一个严重的问题。相反,目标函数的地形中有大量梯度为0的鞍点,而整个平面在大部分维度内向上弯曲,并在剩下的维度中向下弯曲。分析表明具有较少向下方弯曲的维度的鞍点出现的次数似乎很多,但几乎所有都具有相似的目标函数值。因此,算法在这些鞍点中的哪个被卡住并不重要。

人们对于深度前向网络的兴趣在2006年被一群由加拿大高等研究院(CIFAR)组织起来的研究者所唤醒。这些研究人员引入了无需标号数据就能产生多层特征检测器的非监督学习过程。学习每一层特征提取器的目标是为了能重建或建模前一层特征检测器(或原始输入)的活动。通过用这种重建目标来预训练越发复杂的多层特征提取器,可以将深度网络中的权值合理地初始化。接着便可以将输出层加在网络的最顶端,这样整个深度系统便能用标准的后向传递方法进行微调。这种方法对于识别手写数字或者检测行人非常有效,尤其是当标号样本的数量非常有限时。

对预训练方法的首次主要应用是在语音识别中,而编程简单、让研究者能以10倍或20倍的速度训练网络的快速图形处理单元(GPU)的出现使其变得可能。在2009年,这种方法被用来将从短时音频中提取的参数映射为可能可以用短时音频的中间帧来表示的大量的语音段。它在一个标准的小词汇量的语音识别测试框架中取得了打破纪录的结果,并迅速的发展到能在大词汇量任务中取得打破记录的结果。到2012年,各种各样的对2009年的深度网络的改进版本被许多主要的语音小组开发了出来,并被是用在了安卓手机中。对于较小的数据集,非监督预训练防止了过拟合的出现,使得网络在标号样本较少,或是在拥有大量的原任务样本及少量的目标任务样本的迁移设定下表现出更好的泛化能力。自从深度学习复兴以来,预训练阶段就被证明只需要在小数据集的情况下进行。

然而,有一种特殊的深度前向网络能够被更快地训练,并在与全连接网络的对比中展现出更强的泛化能力。这就是卷积神经网络(ConvNet)。它在神经网络不被众人关注时取得了许多实践上的成功,并在近期被计算机视觉社区所大量使用。

卷积神经网络

卷积神经网络被设计为用来处理以多维数组形式输入的数据,如由3组包含各颜色通道像素强度值的2维数组所组成的彩色图像。许多数据以多维数组的形式存在:1维的信号和序列,包括语言;2维的图像或声谱图;3维的视频或者立体的图像。在卷积神经网络背后有4个利用了自然信号性质的关键想法:局部连接、权值共享、采样和多层的使用。

典型的卷积神经网络由一系列的阶段组成。前几个由卷积层和采样层两种类型来组成。卷积层中的单元被按照特征映射图的方式来排列,其中每个单元被连接至经过一些被称为滤波器组的权值处理后的上一层特征映射图中的局部片段。局部加权求和的结果被输入到像ReLU这样的非线性单元中。在一个特征映射图中的所有单元共享相同的滤波器组。同一层种不同的特征映射图使用不同的滤波器组。之所以这样架构有两个原因。首先,在图象这样的多维数据中,局部片段的取值经常高度相关,形成极易检测的的局部图案。第二,图像和其他信号的局部统计值与其位置无关,它可以在任何的地方出现,因此有了共享不同位置的权值,使其检测数组中各部分中相同图案的想法。从数学上来讲,通过特征映射图进行的滤波操作被称为离散卷积运算,卷积神经网络因此得名。

卷积层的作用是从上一层特征中检测局部特征的连接关系,而采样层则是来将本质上相似的特征合并为一个。因为形成某种图案的特征的相对位置会有微小的变化,将各特征的位置进行模糊化处理后可以更为可靠的检测图案。一个典型的采样单元计算上一层特征映射图(或一个新的特征映射图)中的局部片段中所有单元的最大值。相邻的采样单元从每次移动多行或多列的局部片段中获得输入,因此能够降低特征描述的维度并得到了对微小移位和变形的不变性。两个或三个卷积层、非线性层和采样层被放到一起,后面还会跟上更多的卷积层和全连接层。在卷积网络中将梯度后向传播与在一个普通的深度网络中一样容易,使得在所有的滤波器组中的权值都能得到训练。

深度神经网络利用了许多自然信号可以按层次分解的性质,即高层特征可由低级特征的组合得到。在图像中,一个区域内的边缘组合成图案,图案组合成部分,而部分组合成图片中的物体。在语音与文字中,相似的层次以声音到音素,到单音,到音节,再到词,最终到句子。而采样使得对特征的表示即便在上层的输出在位置和表现上有变化时也能保持一致。

卷积神经网络中的卷积层和采样层都是直接由视觉神经科学中对简单和复杂细胞的传统定义带来的灵感,而其整体的架构则让人想到了视觉中枢传递中的LGN-V1-V2-V4-IT的层次。卷积神经网络模型与猴子展现出了相同的特点,其高层单元的响应值可以表示猴子的额叶皮质区中随机选择的160个神经元的差值。卷积神经网络扎根于与其结构相似但无法用端到端

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[151057],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版