由误差边界导向的集成学习外文翻译资料

 2022-11-08 21:00:59

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


由误差边界导向的集成学习

作者

Yong Liu, Qiangfu Zhao, and Yan Pei

计算机科学与工程学院

会津大学

津若松,福岛965在8580,日本

摘要

与其他重采样集成学习不同,负相关学习同时并协作地训练集合中的所有个体模型。在负相关学习中,每个个体模型可以看到所有的训练数据,并且基于集合中的其余个体学习到的知识来适应其目标函数。在本文中,在负相关学习中引入了两个误差界限。一个是误差输出的上限(UBEO),它将训练数据分成两组。另一个是设置为开关的误码率的下限(LBER)。在学习集合的误差率高于LBER之前,通过负相关学习来学习所有训练数据。一旦学习集合具有比LBER低的错误率,则负相关学习将被应用于仅由UBE0指定的一组,该集合里的数据点接近当前判定边界。本文将通过带有两个边界的负相关学习来检验整体中各个模型之间的差异,以确定如何使LBER和UBEO适应负相关学习。

关键词:集成学习,负相关学习,决策边界。

1简介

虽然现在许多应用程序都包含大量的数据点,但仍然存在一些其他的应用程序只有有限数据样本。在具有有限数据的这种应用中,学习这些已知数据点通常是相当容易的。可以获得许多模型,它们都可以很好地学习给定的数据。然而,这些获得的模型将对未知数据的表现是不确定的。因此,应该选择哪些学习模型是不清楚的。模型选择采用的一个规则是奥卡姆剃刀思想,在训练数据拟合的所有模型中选择最简单的模型。

一般来说,在具有有限大小的训练集的情况下,通常需要在偏差和方差之间进行权衡[1]。如果在模型中引入更多参数以减少偏差,则方差往往会增加。另一方面,如果减少参数以减少方差,偏差往往会增加。当所有这些模型适合训练数据时,它们都具有很小的偏差。然而,它们的方差有很大差异。最简单的模型具有最小的方差。因此,它被选择用于应用。

处理这种偏差方差权衡问题的另一种方法是设计一个能整合一组模型输出的集成模型。在整体中,所有构造模型的方差可以进一步分为方差和协方差。理论和实验结果[2],[3]都表明,当构建的模型的输出是负相关的时,整体是最有效的。当所建模型的输出不相关时,集合变得不那么有效。如果构建的模型的输出是正相关的,则从集合中可以获得很少的收益。例如,M个高度正相关的相同模型组成的集成模型,它的方差没有减少。同时,如果构造的模型不相关,则这些模型之间的协方差的总和减少到零,而方差可能衰减为1 / M。

为了创建尽可能不相关的一组模型,已经开发了不同的方法来通过改变初始随机权重,架构,所使用的学习算法和数据来独立地训练一组模型[4],[5],[6],[7],[8]。创建整体的常用方法通常是改变训练数据,如交叉验证[9],自举[10]和不同的输入特征[6],[7]。交叉验证可用于创建一组网络。将数据分成M个大致相等的部分,并独立地对不同部分的每个网络进行训练。如Meir 所示[11],当数据集小而存在噪声时,这种独立性将比在每个网络对完整数据进行训练时更明显地降低M网络之间的相关性。当需要更大的一组独立网络时,将训练数据分割成不重叠的部分可能导致每个数据部分太小,以至于无法训练每个网络,在没有更多数据可用的时候。在这种情况下,数据重用方法(如bootstrap [12])可以帮助您。这种独立的训练方法强调了一个集体中个体的独立性。这种方法的缺点之一是学习期间各个网络之间的相互作用会丧失。没有考虑一个个体的学习是否已经被其他个体学到了。独立受过训练的个体的错误可能仍然是正相关的。

与独立训练方法不同,先前训练的学习机过滤数据顺序,boosting 算法通过这个数据顺序训练一组学习机[13]。Schapire证明,在理论上可以将一个仅仅稍微优于随机猜测弱学习算法变成一个达到任意精度的算法。

bootstrap算法和boosting算法都使用重新采样,其中每个单独的模型都是从原始数据集中随机重新采样的数据进行训练。也就是说,训练数据的子集在单个模型学习之前创建。各个模型之间的学习还没有直接的交流。

与其他重采样集成学习不同,负相关学习同时并协同地训练集合中的所有个体模型[14],[15],[16],[17],[18]。在负相关学习中,每个个体模型都可以看到所有的训练数据,并根据集合中的其他个体学到的内容来适应其目标函数。由于其自适应的目标函数,负相关学习能够很好的学习硬数据点。然而,当学习所有的训练数据时,其中学习的决策边界可能过于接近一些训练数据点,它可以增加不必要的个体模型。这种决策边界可能导致训练数据的准确性更高,但可能对未知数据做出错误的决定。

为了促使数据点远离决策边界,应该对当前决策边界附近的数据点进行更多的学习,而对其余数据点分配较少的学习。因为大多数数据点都接近当前的决策边界,所以在它们之间大致平均分配学习。在后续的学习过程中,训练数据点通常分为两组。一组包含靠近当前学习决策边界的点,而另一组包含远离当前决策边界的数据点。应该注意的是,错误分类的数据点可能会出现在两组中。在本文中,负相关学习引入了两个误差范围。一个是误差输出的上限(UBEO),它将训练数据分成两组。另一个是设置为开关的错误率(LBER)的下限。在学习集合的错误率高于LBER之前,所有训练数据都通过负相关学习学习。一旦学习的系统的误差率低于LBER,则负相关学习将被应用于仅由UBEO指定的数据点接近当前决策边界的一组。本文将通过负相关学习与两个界限来检验整体中各个模型之间的差异,以确定LBER和UBEO应如何适应负相关学习。

本文的其余部分安排如下:第二节描述了误差有界负相关学习。第三节讨论了误差边界如何通过负相关学习减少组合之间的平均重叠率。最后,第四节总结了仿真结果。

2有界负相关学习

负相关学习[19]是为集成神经网络创建负相关神经网络。在负相关学习中,集成神经网络的输出y通过一组神经网络的输出Fi的简单平均来给出。给定训练数据集D,集合中的所有单个网络在相同的训练数据集D上进行训练

(1)

其中,Fi(n)是第n个训练模式x(n)上个体网络i的输出,F(n)是第n训练模式上的神经网络集合的输出,M是集成神经网络中单个网络的数量。

在负相关学习[19]中,将相关补偿项引入到每个单独网络的误差函数中,从而强制所有的个体网络同时进行交互学习。负相关学习中训练数据集D上个体i的误差函数Ei定义为

(2)

其中N是训练模式的数量,Ei(n)是第个n训练模式中个体网络i的误差函数的值,y(n)是第n个训练模式的期望输出。式(2)右侧的第一项是个体网络i的均方误差。第二项是相关补偿函数。最小化的目的是将每个个体的错误与整个集合的其余部分的错误负相关。该参数用于调整补偿的强度。

在第n个训练模式下,Ei相对于个体i的输出的偏导数为

(3)

在 = 1,误差函数的导数变为

(4)

其中误差函数的导数仅由F(n)和y(n)之差决定。

这已经表明负相关学习能够在回归任务中产生负相关的个体。在分类问题中,通过负相关学习的个体模型可能不会有这么大的差异。个人模型之间的差异可以通过两个个体之间的重叠输出率来衡量。在有界和有界的负相关学习中测量了整个集合中每两个单独神经网络之间的平均重叠率。设Si表示单个神经网络i的输出集合,其中Si中的每个项目是1或0取决于由神经网络i进行的分类结果。令表示集合Si的大小,表示集合的大小。当两个神经网络在所有测量数据点上具有相同的分类时,重叠率为1。当这两个单独的神经网络在所有数据点上给出不同的分类时,重叠率将为0。组合中每两个神经网络之间的平均输出重叠率可以计算为:

在本文中,首先在时测量无界负相关学习中的平均重叠率。然后将两个误差界限LBER和UBEO的不同组合放入负相关学习。在学习集合的错误率高于LBER之前,这种有界的负相关学习将像往常一样学习。一旦所学习的集合的错误率比LBER更好,负相关学习就可以在远离当前决策边界的那些数据点上停止学习,并切换到靠近决策边界的其他点。这两组数据点由UBEO指定,由给出,它描述了x(i)如何远离学习的决策边界。在以下实验中,在无界负相关学习和有界负相关学习中,在不同学习阶段测量平均重叠率。平均重叠率可以忠实地反映有界负相关学习和有界负相关学习产生的不同模型。

3实验结果

来自UCI机器学习基准库的澳大利亚信用卡评估数据集和糖尿病数据集被用于进行了无界和有界负相关学习的比较。信用卡数据含有小的噪音,而糖尿病数据具有较大的噪音。使用n折交叉验证,其中信用卡数据中n=10,而糖尿病数据中n=12。已经进行了5次n折交叉验证以计算平均结果,其中分别对信用卡数据和糖尿病数据进行了总共60次运行和50次运行。因此,对于每对B(LBER,UBEO),计算平均重叠率60或50次。实验中的神经网络集成中包含10个个体。每个神经网络具有单个隐藏层和10个隐藏节点。

  1. 小嘈杂数据的重叠率

表I显示了信用卡数据中在B(0,0.5)和B(0.1,0.05)负相关学习整体的平均重叠率。当训练集中的所有数据被允许学习时,集合中的重叠率从训练集中的0.838增加到0.920,超过8%。有趣的是,测试集上的重叠率首先略有上升,然后逐渐下降。在B(0.1,0.05),整个学习过程的重叠率在训练集和测试集上都下降了。在B(0.1,0.05)下,训练集和测试组的重叠率差异最大为0.6%。相比之下,无界负相关学习对训练集和测试集的重叠率差异达到9.6%。

表I信用卡数据在B(0, 0.5)和 B(0.1, 0.05)通过负相关学习获得的集成的重叠率平均值

No. of epochs

B(0, 0.5)

B(0.1, 0.05)

Train

Test

Train

Test

50

0.838

0.832

0.833

0.827

250

0.868

0.840

0.751

0.746

500

0.885

0.839

0.727

0.724

1000

0.902

0.835

0.718

0.714

1500

0.912

0.829

0.714

0.711

2000

0.920

0824

0.712

0.709

表II和表III显示了集合的平均重叠率,其中信用卡数据上的有界负相关学习LBER为0.1,不同UBEO为0.1至0.25。训练集和测试组的重叠率仍然下降。最小重叠率在训练集上达到0.66,而在UBEO为0.1时,2000代的测试集为0.648。训练集和测试集上的重叠率差异从UBEO=0.1的1.2% 到UBEO=0.15的2%,UBEO=0.2的2.4%,UBEO=0.25的4.5%。

表II. 信用卡数据在B(0.1,0.1)和B(0.1,0.15)负相关学习获得的集成的重叠率平均值

<t

剩余内容已隐藏,支付完成后下载完整资料</t


资料编号:[138530],资料为PDF文档或Word文档,PDF文档可免费转换为Word

No. of epochs

B(0.1, 0.1)

B(0.1, 0.15)

Train

Test

Train

Test

50

0.830

0.823

0.829

0.823

250

0.723

0.715

0.726

0.714

500

0.690

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版