基于深度学习技术的数据驱动软测量开发外文翻译资料

 2022-10-25 02:10

基于深度学习技术的数据驱动软测量开发

Chao Shang, Fan Yang, Dexian Huang, Wenxiang Lyu

a.中国,北京,清华大学,自动化学院,邮编100084

b.中国,北京,清华信息科学与技术国家实验室,邮编100084

2013年4月8日初稿,2014年1月6日修改稿,2014年2月16日终稿

摘要:

工业过程控制中,由于技术或经济上的限制,一些产品质量和关键变量始终难以在线衡量。数据驱动软件传感器作为一种有效的解决方案,在易于测量过程变量的历史测量的基础上,给这些变量提供了稳定可靠的在线估计。深度学习作为深度神经网络的一种新的培训策略,最近已经成为机器学习领域的一种流行的数据驱动方法。在本研究中,深度学习技术被用来建立软件传感器,还应用于工业案例中来估计一个原油蒸馏单元(CDU)中的重型柴油的95%切点。模拟结果的比较表明,深度学习技术特别适合软件传感器建模,因为相比于传统方法,它具有以下优点。第一,具有复杂的多层结构,和传统的数据驱动模型相比,深度神经网络能够包含更丰富的信息,并得到改善表示的能力。第二,深度神经网络建立了潜在的变量模型,这种模型有助于描述高度相关的过程变量。第三,深度学习是半监督式的,以便所有可用的过程数据都可以利用。第四,在实践中,深度学习技术能够特别有效的处理大量数据。

关键词:深度神经网络;非线性回归;软测量;数据驱动技术

1.介绍

在过去的二十年中,软测量已被广泛研究,并且在过程工业中得以实施。通常情况下,它们是基于工业生产过程中可获得的大量数据来预测模型,并且主要负责一些变量的在线预测,这些变量在质量控制和生产安全方面起到了不可或缺的作用,这是因为硬件测量仪器不可用或昂贵。在一般情况下,人们可以广泛地将软测量分为两种类型,即,第一原理模型(白箱模型)和数据驱动模型(黑箱模型)。第一原理模型依赖于先前的机械知识,因此常常无法使用,这是因为工业生产过程通常分析起来太复杂,这使得机械的知识难以获得。其数据驱动的对应物,可替代地,根据在工业过程中收集到的历史数据给出经验模型。由于它们的实用价值和独立性的先验知识,数据驱动的软测量已经越来越多地建立了自己的流行的和有效的方法。各种各样的统计推断技术和机器学习技术已经在数据驱动软测量中使用,其中有代表性的例子有主成分回归(PCR),其包含一个回归模型的主成分分析(PCA),偏最小二乘(PLS)回归,支持向量机(SVM)和人工神经网络(ANN)。

在实际工业场景中,软测量具有一个挑战性的问题,那就是以密切相关的工艺参数为特点的工艺流程。通常,这种工艺参数所看到的数量比其有效尺寸大得多,这被称之为数据丰富但信息匮乏。在这种情况下,潜变量模型尤其适用于描述少量信息损失的低维度空间,这对过程数据的主要变化给予了解释。PCR和PLS方法是过程工业中相关的最流行的处理数据的技术。基于PCA,PCR[5]是在共线性问题上的有效工具。它首先找到高维度过程变量(X空间)的主成分(PCs),然后建立从PCs到一个期望的目标变量的一个回归映射。然而,当建立潜在变量时,PCR不能反映过程变量(X空间)和目标变量(Y空间)之间的关系。相反,PLS技术能够同时给X空间和Y空间建模,它已经在软测量建模中找到了广泛的应用。可是,纯PCR和纯PLS都有几个共同的缺点:(1)大量数据需要很好的普及;(2)它们具有线性原型及其非线性扩展,如神经网络PLS(NNPLS)和内核PLS(KPLS)在非线性参数的选择上遭遇到困难。

最近几年,出现了一项研究扩散,那就是对软测量适用的机器学习方法。最常用的是SVM和ANN。构造成一个凸二次优化问题,SVM享有较低计算成本和可获得最优的优势。自提出以来,它已经逐渐成为许多领域的一个主要方法,例如人工智能,模式识别和机器学习。此外,它在解决小样本问题上被证明是有效的,因此它已被广泛地用于软测量。然而,存在一个遗留问题,计算的复杂程度随着训练样本的数目呈指数增长。另一方面,ANN在函数逼近和模式识别方面有自己的空间。总体而言,ANN代表了一大类模型结构。最常见的类型是多层感知器(MLP)和径向基函数网络(RBFN)。Qin指出ANN特别适合于开发软测量,而且它确实已被广泛应用。然而,ANN仍受不可控收敛速度和局部最优的影响。另外,具有深层结构(两层以上)的神经网络的参数难以用传统的梯度下降法来优化。尽管有一些成功的应用,但是SVM和ANN都没有为潜在变量子空间提供限额,从而导致无力解释。

类似于人脑的多级结构,深度神经网络也应属于ANN的范围,但是直到2006年,机器学习从业人员提出了深度学习技术,该神经网络才有用,这种深度学习技术是深度神经网络的一种新颖的数据驱动的训练方法。此后,深度学习在机器学习方面获得了越来越多的关注,并且已经促使其在语音、图像识别和自然语言处理方面取得成功的应用,其中深度学习由于其显着的表达能力,而优于其他传统数据驱动的学习方法,如PCR,SVM,浅层ANN。对深度学习的详细介绍可以在中找到。一个深度网络是通过前期培训的深度信念网络(DBN)来训练的,该网络在本质上能够使一个非线性潜变量模型可以得到解释,并且,在获取的潜变量模型的基础上,建立一个回归模型,使该深度网络适合于处理高度相关的数据。此外,无监督学习和监督学习恰当的融合在一起,产生了一种半监督模式;这正是传统方法的不足之处。然而,截至目前,深度学习的应用尚未在数据驱动的软测量建模中找到。为此,本文采用进化的深度学习技术的优势来处理软测量发展中的工业过程中的大量数据和固有的变化性。

本文的其余部分进行如下。在第2节中,对浅层网络的缺点和深度学习的优点,以及工业生产过程的特点进行了综述,并且,深度学习的精华很好的适合软测量建模进一步显现出来。第3节对深度学习技术的基本原理进行了详细的阐述。第4节概述了基于软测量的深度神经网络的建模过程。第5节引用了一个工业案例,该案例研究了在原油蒸馏装置中,重型柴油切点的估计,由此证明了该方法的有效性。最后一节做出了总结。

2.深度学习概览及其软测量建模拟合优度

2.1 深度神经网络的非凡表现能力和传统模式的局限性

传统模式的绝大部分,如SVM、传统的MLP和RBFN,能够逼近任意连续的非线性映射到任意精度;然而,它们被认为具有浅层结构,即计算单元少于三层。例如,具有单个隐藏层的MLP由神经元的两层构成;SVM可以看作是一个两层网络,同时内核的类型决定了第一层单元的数目以及第二层连接的配置。最近的研究已经表明,随着层的不足的深度,这些网络缺乏有力的表示效力,因此揭示了在某些学习任务上的局限性。典型的困难发生在一些区域接近“高度不同的功能”发生剧烈变化。为了很好的近似这些高度变化的区域,许多单元应该被添加到浅层结构中。同时,在高度变化的区域充足的训练样本需要保证得到理想的推广。如果训练样本稀少,高度变化的函数不能由浅层结构的网络适当的表示。然而,最近的分析认为一个高度变化的函数可以通过一个深层结构,即具有非线性的两个以上的层来适当地表示。尽管如此,具有随机初始配置的公共梯度下降优化方法已经不再有优势,因为它往往陷入到贫乏的局部优化,因此,深层结构对训练来说一直是一个烫手的山芋。一个显着的突破就是提出了一种新型的半监督训练算法,称为深度学习。

在工业生产过程中,化学装置通常由各种各样的子系统组成。同时,生化反应通常在构成不同的配置中高度变化。显然,复杂的化学过程可以更好地被更深层次的结构说明。

2.2 深度学习的独特优势:非线性潜在结构

深度学习技术主要包括两个阶段,即无监督前期训练阶段和监督反向传播阶段。在无监督前期训练阶段,深度信任网络(DBN)作为后续监督的初始权重被预先训练,而在监督反向传播阶段,整个网络以一种监督的方式微调。

下面详细介绍了DBN,并对其独特的发展进行了分析。这将表明,DBN将深层神经网络作为一个潜变量模型的做法对软测量建模是有利的。该DBN采用一个多层结构,包括一个可见层和几个潜在层。在这项研究中DBN的层数定义为L,一个DBN通过堆积成一系列受限波尔兹曼机(RBMs)被分层构建,如图1所示。DBN的每一层被看作是一个单独的RBM。一个单独的RBMtheta;l ( l = 1, 2, . . ., L)有两层,即表示输入vl的可视层和表示潜在变量hl的隐藏层,以及潜在变量充当下一个RBMtheta;l 1的输入。具有隐藏的h单元,RBM享有一个潜变量模型类型。DBN的训练过程涉及到从低层到高层的逐层训练方案。这个过程由一个三层RBM的一个简单的例子来说明。在图1中,RBMtheta;1第一个训练,先前的RBM的隐藏层作为RBMtheta;2的输入,然后RBMtheta;2被训练,下一个RBMtheta;3以同样连续的方式完成。在每个RBM的训练进度中,潜变量作为特征通过最大化概率P(vl)单独地从它的输入中提取出来。注意到因为没有涉及到目标变量,所以DBN训练过程是完全无监督的。可以理解的是,高级别潜变量是在低级别潜变量的基础上获知的,这使DBN期望潜变量模型得到有力的解释。

图1 深度信念网络结构

图2 软测量建模中的多速率抽样

在图2中,通过传统方法丢弃的过程数据(灰色点)可用于深度神经网络的无监督训练,而且,通过传统方法使用的训练样本(白色点)可用于监督反向传播。

众所周知,化学过程变量之间存在明显的相关性(固有特性)的因此需要潜在模型,如前述的一些数据驱动方法—PCR、PLS和它们的非线性扩展。最近的几项结果表明,深度神经网络帮助矿比PCA和PLS有更复杂的相关性,并且具有建立低维非线性潜结构的能力;因此,它很可能会利用深度学习来捕获具有潜变量模型的过程变量之间的相关性,使软测量模型更具解释性。

2.3 一种将所有可用的过程数据相结合的半监督策略

采用深度学习的另一个可靠的原因是,快速采样过程的数据可以得到充分的利用。在化学过程中,与过程变量相比,质量变量的采样速率可以是非常慢,如图2所示。因此,质量样本数比过程样本数少得多。然而,对于传统的软测量模型,如PLS、SVM和ANN,使用中过程样本数和质量样本数相等。因此,只考虑一小部分的过程样本数,其余大量的含有丰富信息的快速速率过程样品保持为未使用。在深度学习中,以前的方法抛弃了的这些过程数据可以幸运地用于无监督前期训练中,来提取明确的潜变量,这对有目标质量变量的监督反向传播及其相应的进程样本有帮助。因此,使用的数据越多,将获得越精确的模型,这是合理的。因此,将深度学习技术应用于软测量建模是值得尝试的。

3.开发DBN回归模型的两阶段程序

本节详细介绍了使用深度神经网络开发回归模型的两阶段的过程。第一步是预训练,其中DBN用无监督输入数据单独训练。第二步是反向传播,其中,具有目标数据的回归神经网络使用在用于初始化的第一步中获得的参数进行训练。3.1节介绍RBM充当DBN层组件的基础知识。3.2节阐明了对每个单独的RBM基于学习算法的梯度下降。3.3节提出在监督学习中使用目标数据以获得回归模型。

3.1 RBM基础

3.2 关于RBM梯度下降的基础学习算法

3.3 通过反向传播用预训练DBN来训练深度神经网络

正如在前面第2节中提到的,堆放一系列RBMs构造一个DBN。请注意,在RBM的隐藏层描述了输入数据背后的深层特征。高层RBMs的隐藏层表现出高水平特征,这是因为高层RBMs是建立在低层RBMs隐层的低水平特征之上的。因此,DBN可以看作是一个潜变量模型,该模型具有代表低级别功能的内层和达高级别功能的输出。在软测量建模中,因为过程数据是连续的,并且不限制在一定范围内,所以,根据需要,底部的RBM被选择作为高斯单元,其余被选择为二进制单元。图3描绘了本研究中所用的DBN的结构。

图3 预训练一个DBN后初始化一个具有三个隐层的深度S型网络

接下来,在无监督训练阶段,DBN的参数{Wl,cl}(L =1,...,L - 1)从L – 1中很好的衍生出来。一旦DBN的无监督训练步骤完成,整个神经网络就要以监督的方式与目标值进行训练。然后,L层深度神经网络的权重初始化如下:参数{Wl,cl}(L =1,...,L - 1)(除顶层参数)被设定为相同的DBN,顶层权重{Wl,cl}随机初始化。在此之后,整个网络可以通过使用过程数据和对应的质量数据以监督的方式反向传播来进行微调。图3呈现了初始化一个具有预训练DBN的4层深度神经网络,以及一个附加的顶层示意图。

整个训练过程可以做如下说明。训练深度神经网络通常会产生糟糕的结果,除非初始权重在可取的区域中。预训练一个DBN有助于发现数据背后的潜变量,并设置与好的解决方案相邻的权重,使反向传播对于训练深度神经网络来说变得有效。另外,由于该神经网络是基于DBN里的潜变量建立的,所以整个神经网络可被视为保留了一些潜变量信息和更多可解释的东西。

4.基于深度神经网络的软测量建模

综上所述,基于深度神经网络的软测量建模过程包括以下步骤:

第1步:根据过程知识选择次要变量。

第2步:预处理数据。首先从原始样本中删除所有潜在的异常值,然后正常化执行,使所有样品的均值和单位方差均为零。

第3步:确定网络的体系结构,并通过连续训练各个单独的RBM,以一种无监督方式的预训练DBN。

第4步:将带有预训练DBN的深度神经网络的参数初始化。

第5步:通过反向传播

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[154149],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。