PLS建模的研究进展外文翻译资料

 2022-11-19 14:55:54

英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料


PLS建模的研究进展

Svante Wold, Johan Trygg, Anders Berglund, Henrik Antti

化学计量研究组,化学系,梅阿大学,瑞典

摘要

一开始化学计量学偏最小二乘法PLS模型有两个变量X和Y,且它们彼此线性相关,自1980年初以来有扩展。我们在这里讨论多块和分层PLS建模,用于构建数据结构的先验知识并简化模型解释,PLS的变量选择方案与非常相似的目标,非线性PLS和预滤波PLS,正交信号校正(OSC)。最近的一个发展,正交化PLS(O-PLS)是包括作为一种方式去完成OSC以及对PLS模型的简单解释。在这种情况下,我们还简要提及PLS的时间序列,批处理和小波变体。

这些PLS扩展以肽定量构效关系(QSAR)为例,和使用NIR的纸浆的多变量表征。2001年爱思唯尔科学公司保留所有权利。

关键词:化学计量学; PLS建模; 正交-PLS

1.引言

通过偏最小二乘法PLS预测潜在结构,是赫尔曼沃尔德及其同事在1975-1982年期间在潜变量[1,2]中以偏最小二乘建模的名称发现的。 任何PLS模型的基本假设是所研究的系统或过程加权平均线性组合。这些潜在变量(LV.s)被估计为是PLS广泛使用的一个主要解释。因此,可以将PLS看作是间接观察这些LV.s[1]的数据分析工具箱。PLS与某些类别的模型有关,这些模型在概念上与回归有很大不同,例如传统上用于数据分析的具有独立预测变量的模型。 这也使PLS能能够以简单直接的方式处理许多不完整和相关的预测变量。

到1982年,带有两个变量X和Y的最简单的PLS变体和一个预测方向X→Y被作为特殊情况取出,并在化学数据的多变量分析中进行了修改。 首次化学PLS应用包括多元校准和定量结构-活性关系(QSAR)。这里的潜在变量(LV.s) 形成一个自然的概念框架来处理X中的许多相关预测变量,而具有独立变量的回归模型则不会。这种两块PLS模型已被广泛用于化学数据的建模和分析,事实上在化学和相邻领域被称为QSAR,现在已经发展到包括一些诊断和解释工具,例如置信度参数间隔,变量重要性度量等。

两块预测PLS模型也是本文的出发点。 我们在这里将讨论这个基本PLS模型的一些扩展,以解决X数据中的非线性,非常多变量以及强大但不相关的规律。算法经常使它们一起被引用。该算法要么基于残差函数的最小化,通常是最小二乘法或加权最小二乘法,要么找到与数据分布最大似然相对应的模型。前者是化学中的主要方法,而后者是化学中的主要方法在统计中被大量使用。

1.1模型及其含义

在本文中,我们将讨论模型及其用于分析化学数据并因此了解化学系统和过程。在化学中,一个(mathemati-cal)模型通常意味着测量变量的系统部分之间的确定性且通常是因果关系的数学关系。系统部分和数据之间的偏差(残差)。通常在这种数学关系中明确地显示出来。 该模型是一个复杂的基础现实的近似。在统计中,模型通常也涉及数据和残差分布的规范。我们避免规定分布,主要是因为它们通常对化学数据知之甚少,而确定性变量没有合适的分布。

在诸如PLS的LV模型中,假定存在一组实际驱动被调查系统或过程中的变化的底层LV.s。这些LV.s不是可直接测量的,而是根据数据估算的。 因此,他们通常被称为间接观察。

PLS模型的系统部分可以是相互关联的,在某些空间中以几何形式预表面,其中观察的坐标是LV.s. 残差构成观测点与相同空间中模型之间的距离。

随着任何模型的过程如何适应模型给定的数据,通常称为算法。 当然,这些必须不要与模型本身混淆,但模型和基础模型之间的密切联系,算法经常使它们一起被引用。该算法要么基于残差函数的最小化,通常是最小二乘法或加权最小二乘法,要么找到与数据分布最大似然相对应的模型。前者是化学中的主要方法,而后者是化学中的主要方法在统计中被大量使用。

1.2由许多可能的情况引起的问题,以及可能的补救措施

1980年,有许多变量的数据集有大约20个变量,而今天我们可能在大数据集中有20 000个变量。这种增加10倍的数量级也会导致PLS建模问题,主要是对结果的解释。尽管在这种情况下,PLS估计也有很好的效果,但有很多变量,荷载,系数,残差等的图表和列表往往变得笨拙。 那么选择一小部分变量并忽略其余部分是一种很好的诱惑。当然,这通常是有风险的,并且也倾向于降低诊断对异常值和翻转的效率,例如剩余标准偏差或对模型B的偏差。

处理很多变量有几种方法。如果变量具有相同的类型和顺序,小波压缩效果很好,如光谱和色谱图[3,4]。变量删除选择有时是合适的,例如,当每个变量与成本相关联时,以及在PLS中选择称为交互变量选择(IVS)的变量的方法。将在下面讨论。

一个容易实现的简单想法是将X和Y变量分成子块,然后首先制作每个子块的PC或PLS模型,然后将得到的分数用作PLS中的一组新变量模型。 这通常被称为分层PLS建模,并在下面的单独讨论中进行讨论。

有时变量会在数据集中以较大的间隔变化,这往往会使它们之间的关系变得非线性,包括X和Y之间的关系。有几种方法可以修改PLS或数据以应对非线性关系。我们将在下面讨论一些简单的非线性PLS建模方法,所有这些方法都是基于修改X矩阵来允许通过普通PLS估计非线性关系。

对PLS估计的机制B的理解最近已经大大增加了,我们认识到预测PLS,主成分回归-PCR等往往会受X中与Y无关的规律性的影响。例如,与Y无关的规律是在多元校准中使用的光谱中存在基线偏移和杂质,3D-QSAR数据中不重要的区域以及过程数据中改变测量设备的影响。通过这种与Y无关的规则对PLS估计的影响是需要几个PLS分量而不是一个来模拟与Y相关的一个方向B。因此,PLS模型具有比需要更多的分量,这使得它们的解释变得复杂并且有时候预测误差也不必要的大。最近,一种过滤用于正交信号校正的PLS解决方案(OSC)已经被开发出来,以将PLS模型清洁到每LV[5]的单个组件。 最近,它表明标准的PLS NIPALS非线性迭代偏最小二乘法。算法可以修改为给出两组得分一个与Y相关,另一个与Y正交。这为解释PLS模型提供了一种有趣的方式,也是计算OSC的另一种快速合理的方法,称为正交化的PLS(O-PLS)[6]。

2.方法和理论

2.1PLS中的分层PLS和交互式可选择性(IVS-PLS)

今天,当数据比以往更多时,例如在过程化学计量学,3D-QSAR及相关领域,分析源自各种来源的复杂数据的方法的需求大大增加。 在这里,阻塞的多变量方法是有用的,其中X和有时Y.矩阵被分成相关变量的块。阻止描述符并不一定能带来更好的预测,但当然,它通常会简化解释。PCA和PLS算法的扩展处理多个块不是新的;Wold[1]提到了几种不同的获取多块模型的方法。World等人描述了这些算法的进一步发展。 [2],其中讨论了不同的多块模型。Berglund等人给出了多块PCA及其用途的一个例子[7]。在最近的一篇由Westerhuis等人撰写的论文中[8],讨论了多块模型的不同特点和缺点。

变量选择,即将X变量的数量从K(eg=2000)减少到(eg=250),是出于几种情况。(a)x变量是实验设计的一部分,因此接近独立。这将通过下面的Elastase示例进行说明。(b)成本与每个变量相关联,从而使得搜索足以充分解决给定问题的最小X变量集合是经济的。(c)在一些例子中,大多数变量相对于给定问题是无意义的,因此找到一个提高理解和预测的小子集是很有趣的。

在PLS模型中变量消除策略的交互式变量选择(IVS)简单并且直接,与其他许多可变消除方案不同,IVS不会忘记消除的变量,因此IVS不会扭曲模型的解释。IVS通过将PLS权重W设置为零来表示不重要的变量,即具有代数小的W值的那些。这在迭代PLS估计算法的中心完成,因此给出了具有选择的PLS模型具有零到w个系数的变量的比例。然而,载荷p不会被操纵0,因此显示哪些删除的变量与非零ws的重要变量。

有关IVS的想法是由Kettane-hwold等人在一篇论文中开始的[9],并在Lindgren等人的几篇论文中继续[10-12]。该方法就是一个例子Hoskuldsson[13]表明w矢量(PLSX加权)的结果。在NIPALS迭代的每个循环中都可以被操纵以对应某个目标的变量选择。只要NIPALS算法的其他步骤保持不变。

2.2非线性模型

在化学应用中,可能有几种预测模块和响应之间的非线性源。例如,改变分子侧链的大小,具有多个响应和变量饱和通常会导致非线性关系。非线性建模在其他学科中也很常见,例如物理学和相关领域,如物理化学和地球物理学。在这里,模型用于描述基本的基础理论,例如微分方程。本文提出的应用程序是经验性或半经验性的,因为对底层基础理论知之甚少。

一个好的非线性回归技术必须易于使用。该方法的鲁棒性也很重要,因为非线性方法总是比线性方法更灵活,因此更容易适应噪声。模型的结果应该是可解释的,以便看到哪些变量很重要,以及存在何种类型的非线性。如果关系是线性的,则需要非线性模型收敛到线性模型。列出的一些要求或多或少都取决于所研究问题的类型。处理非线性的方法可以分为两大类。第一类旨在使X-Y关系呈线性,因此易受常规线性回归方法的分析。第二类在回归步骤中部署具有非线性函数的模型。焦点这里是使关系成线性的方法,因此可以使用普通的线性回归技术。基于假设数据中存在潜在结构的方法,例如隐式非线性潜变量回归(INLR),如下所示。

这种策略的最简单形式是对X变量的响应Y和错误的转换。 处理非线性的另一种方式,特别是在具有独立X变量的传统统计应用中,是用它们的能力和交叉乘积项来扩展预测因子。多项式可以被定义为X变量的权力和产品的集合或组合。多项式表达式可以看作是泰勒对真正潜在理论函数的系列扩展。这种方法的问题是,当变量的数量增加时,交叉产品的数量也会迅速增加。具有100个描述符变量的数据集现在不被认为是大的,它给出了4950个交叉乘积项。这显然不是功能试图去解释这样一个模型。此外,由于大部分添加的变量与响应无关,因此增加的噪音量很大。因此,描述符的完整扩展更适合于只有少数x个变量的情况。

2.2.1隐式非线性潜在可变回归-INLR

这个使用多项式的哲学可以成功地转移到基于潜变量的方法上,如Berglund和Wold[14]所示。如果假定潜在变量模型是普通PLS的假设,则多项式必须在潜在变量中,而不是在原始变量中。假设响应Y是潜变量T的函数,并且x块具有潜在结构,即X的等级远小于N和K,即变量和对象的数量。在参考文献 [14],我们表明X矩阵的元素平方包括潜变量的平方,以及潜变量的交叉项

a

X中第一个元素的平方可以写成:

很容易看出,包含了潜变量的正方形和交叉项。因此,如果使用扩展预测矩阵而不是原始矩阵,则普通PLS可以估计描述预测变量与响应之间关系的底层函数f(T)。泰勒级数不是位于原始描述符中的泰勒级数,而是位于潜在变量中。如果数据中存在与响应相关的潜在结构,这是普通PLS回归的哲学的逻辑延伸。

这种通用方法也可以通过几种方式进行修改,例如使用扩展块的预先称量。这将导致一个模型收敛到线性模型,如果关系是线性的扩展块被加权为零[15]。如果扩展矩阵被降权重,则信噪比问题也可能得到改善。Rob-ertsson[16]也提出了一个类似的修改,其中只有非线性变量被平方并添加到模型中。INLR方法还可以与串行PLS算法[17]一起使用。 这可以更好地解释存在的非线性类型,并且在某些情况下还可以提供更好的预测结果。

2.2.2 GIFI PLS

这种关系的“线性化”不应该要求任何关于非线性类型的先验信息。GIFI方法通过简单扩展每个变量来实现这一点,首先由Michailides和Leeuw [18]提到。该方法与PLS一起使用,Berglund等人对变量的扩展进行了一些修改 [19]。在GIFI方法中,每个x变量由一组新变量表示,这使得可以用普通的PLS建模非线性关系。每个变量被分成多个分箱,每个分箱形成一个新的变量。这个每个x变量的新表示允许原始x变量的非线性表示,因为每个bin都会得到一个单独的bin。变换如何从单个变量完成到一组新变量,如图1所示。在图1a的例子中,一个范围从0到90的x变量由五个新变量编码。图1还表明,这可以通过几种不同的方式完成,所有方式都有不同的属性。这种扩展有两个主要的缺点,特别是其原始形式,如参考文献中所示[18,20],分辨率的丧失和在训练集变量所跨区域之外进行预测的能力。在原始表示中,如图1a所示,如果对象在容器范围内具有值,则每个容器用1的离散1/0变量表示,否则为0。 由于表示是离散的,变量的新表示也将是离散的,导致变量的分辨率损失。与从变量的新表示中获得的收益相比,这种损失理论上不那么重要,这使得建立非线性关系成为可能。如果新对象的值高于训练集中的任何值,则它将获得与在训练集中具有最高价值的项目。这是在跨区域之外进行预测的原因对于这种类型的表示不起作用。如图1b所示,通过使用分档变量的稍微修改的表示可部分解决缺点。唯一的区别是使用原始值而不是新变量中的值,从而更好地表示变量。参考文献还讨论了其他两种表示[19],如图1c,d所示。

对于GIFI方法,除了第四种GIFI方法外,很容易研究非线性的类型。通过简单地绘制每个箱的PLS权重与箱数的关系,可以看到非线性的形状。 这可以通过一个简单的测试示例来说明。图2a显示了一个x变量和一个响应之间的简单立方关系。PLS当然不能以令人满意的方式对这种非线性关系进行建

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[23595],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版