特征选择综述外文翻译资料

 2022-11-22 10:32:56

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


特征选择综述

苗建雨a,c,牛凌峰b,c

a中国科学院大学数学科学学院,北京100019,中国

b中国科学院虚拟经济与数据科学研究中心,北京100190,中国

c大数据重点实验室矿业与知识管理,中国科学院,北京 100190,中国

摘要摘 要 Feature selection, as a dimensionality reduction technique, aims to choosing a small subset of the relevant features from the original features by removing irrelevant, redundant or noisy features.特征选择作为一种降维技术,旨在通过去除不相关、冗余或噪声的特征,从原始特征中选择相关特征的一小部分。特征选择通常会导致更好的学习性能,即更高的学习精度,降低计算成本,并更好的模型可解释性。最近,研究人员从计算机视觉、文本挖掘等提出了多种特征选择算法,并从理论和实验中,表明他们的作品。本文旨在回顾这些技术的最新进展。此外,考虑到文献中提到的一些方法,进行了一次彻底的实验,以检验特征选择的使用是否能改善学习的性能。实验结果表明,无监督特征选择算法有利于提高机器学习任务的聚类性能。

关键词:特征选择;机器学习;无监督;聚类

  1. 介绍

最近,许多机器学习应用(如文本挖掘,计算机视觉和生物医学)中的可用数据在样本数量和维度上都爆炸式增长。为了获取知识,研究如何利用这些大规模数据是非常重要和必要的。 我们的兴趣主要集中在数据的高维度。大量的高维数据对现有的机器学习方法提出了巨大的挑战。由于存在嘈杂,冗余和不相关的维度,它们不仅使得学习算法非常缓慢,甚至使学习任务的性能退化,而且还会导致模型的解释难度。通过去除噪声,不相关和冗余特征,特征选择能够从原始特征中选择一小部分相关特征。

在标签信息可用性方面,特征选择技术大致可分为三类:监督方法[1,2,3,4],半监督方法[5,6,7]和无监督方法[8,9,10,11,12]。 标签信息的可用性允许监督特征选择算法有效地选择区别性和相关特征以区分样本与不同类别。 一些监督方法已经被提出和研究[3,13]。 当一小部分数据被标记时,我们可以利用半监督特征选择,它可以利用标记数据和未标记数据。大多数现有的半监督特征选择算法[5,14]依赖于构造相似度矩阵并选择最适合相似度矩阵的那些特征。由于没有用于指导搜索区分特征的标签,无监督特征选择被认为是一个更难的问题[9]。为了达到特征选择的目标,已经提出了几个评估特征相关性的标准[2,15]

基于不同的搜索策略,特征选择也可以分为三种方法,即过滤式方法,封装式方法和嵌入方法。过滤式方法通过数据的特征选择最具有判别力的特征。一般而言,过滤式方法在分类和聚类任务之前执行特征选择,并且通常分为两步策略。首先,所有功能都按照一定的标准排列。 然后,选择排名最高的特征。 已经使用了许多类型的方法,包括reliefF [16,17],F-sLaLisLic [18],mRMR [19]和信息增益[17]。 封装式方法使用预期的学习算法本身来评估特征。该工作[20]利用基于递归特征消除(RFE)的支持向量机方法来选择与癌症最相关的基因。嵌入式模型在模型构建过程中执行特征选择。图1显示了特征选择方法的分类。

图1 特征选择类别

近年来,正则化在机器学习中具有很强的重要性,被广泛应用于特征选择。提出了基于L1范数正则化的L1SVM方法[21,22]进行特征选择。该工作[23]采用逻辑回归与L1范数正则化进行特征选择。通过结合L1-norm和L2-norm[24]提出了一种更加结构化的正则化的混合胡贝尔化SVM(HHSVM)。作者在[25,26]中开发了一个L2,1-norm正则化模型来选择多任务共享的特征。该工作[3]采用联合L2,1范数最小化的损失函数和正则化。

其余的论文整理如下。第2部分介绍了相关工作。最新的特征选择算法在第3节中介绍。在第4节中,我们进行了大量的实验并报告了实验结果。最后,我们在第5节中给出结论。

2 相关的工作

受监督的特征选择方法适用于标记的数据。传统的监督方法如Fisher Score [27]根据标准对特征进行单独排序,不能考虑不同特征之间的相关性。线性判别分析(简称LDA)[28]被提出来通过最大化类散布和类散布之间的比率来提升特征。不幸的是,LDA从小样本量问题出发,因为它需要计算类散布内的逆矩阵,当训练样本的数量小于数据的维数时,奇异[29]。为了避免这个问题,在文献[30]中提出了基于最大边界准则(MMC)的算法,该算法使用了目标函数中类散度与类散射之间的线性组合,并引入了正交权矩阵的约束条件。然而,所有受监督的方法都有对高标记数据要求的共同限制,这在实践中是非常昂贵的。然而,这种监督方法的表现通常会在标注的训练数据稀少时显着下降[31]

相比之下,半监督特征选择不仅可以利用标记的训练数据,还可以利用未标记的训练数据。结果,半监督方法能够通过在标记数据有限的情况下利用未标记数据来选择特征。其中,基于图拉普拉斯算子的半监督方法假定大多数数据例子位于低维流形上,如半监督判别分析(SDA)[32]。在基于拉普拉斯图的方法中,引入图拉普拉斯矩阵来处理未标记的样本。然而,由于图形的耗时计算[33],它们在处理大规模数据方面通常效率较低。 因此,研究无监督特征选择是非常必要的。

由于缺乏用于指导区分特征搜索的标签信息,因此无监督特征选择被认为是一个非常棘手的问题[9]。许多研究人员提出了一些标准来定义特征相关性。一个常用的标准是选择那些能够最好地保留原始数据的流形结构的特征。另一个常用的方法是通过聚类算法寻找聚类指标将无监督特征选择转换为监督框架。有两种不同的方法来使用这种方法。一种方法是寻求聚类指标(被认为是伪标签),并同时在一个未知框架内执行监督特征选择。作品[10][34]将非负谱集群和结构学习整合到一个联合框架中。另一个首先寻找群集指示符,然后执行特征选择以移除或选择某些特征,并且最终迭代地重复这两个步骤直到满足某些标准。作者[8]首先使用频谱分析获得数据点的指标矩阵,然后使用指标矩阵执行类似监督的特征选择。

  1. 算法

在介绍最先进的特征选择算法之前,我们给出一些符号在论文中使用。假设我们有n个数据点,每个有d个特征。我们用X表示数据矩阵。给定一个方阵A,A的轨迹是A的对角线元素的和。Frobenius范数由下式给出:

根据前面的工作[35],我们给出矩阵, 范数

其中ai是A的第i行,是欧几里得范数。 有效矩阵的定义如下:

它可以用来利用数据点的局部数据结构,其中表示的k个最近邻居的集合。 之后[36],归一化的图拉普拉斯矩阵被定义为L = Dminus;1/2(D-S)Dminus;1/2,其中D是对角矩阵,其第i个对角元素是第i列的S,即。

Relief [16]及其多类扩展ReliefF [37]是过滤器模型的监督特征加权算法。假设p个实例是从数据中随机采样的,对于存在两个类的情况,评估标准的救济被定义为:

(1)

其中表示特征,和上的样本的值,表示最近点到第i点的第i

特征的值分别具有相同和不同的类别标签。表示距离测量。为了处理多类问题。

上面的标准公式(1)可以扩展到以下公式: (2)

其中是实例的类标签,P(y)是实例来自类y的概率。NH(x)和NM(x,y)分别表示与x和相同类别(y类)相同类别的x的最近点集合。和分别是集合NH(x)和NM(x,y)的大小。通常,将NH(x)和NM(x,y)的大小,,设置为预先设定的常数k。Relief and ReliefF的评估标准表明,这两种算法选择了有助于从不同类别中分离样本的特征。

拉普拉斯分数在文献[15]中被提出用于选择可以保留由补偿矩阵K指定的样本局部性的特征。给定K,得到其对应的度矩阵D和拉普拉斯矩阵L. 然后是特征f的拉普拉斯分数 按以下方式计算:

(3)

其中l是与矢量f相同大小的矢量。由于特征在拉普拉斯分数中独立评估,选择可以通过贪婪地选择具有最小LS值的前k个特征来实现具有拉普拉斯分数的k个特征。

SPEC [2]中提出,SPEC是拉普拉斯分数的延伸。 在SPEC中,给定了完备矩阵K,度矩阵D和归一化拉普拉斯矩阵L,提出了三种评估标准用于加权特征相关性的方法如下:

(4a)

(4b)

(4c)

其中,是第j个特征值和L的特征向量对。,其中是和之间的角度; 而是一个递增函数,用于对L的特征值进行重新缩放去噪。L的最大特征向量是数据的最优软聚类指标[36]。通过与这些特征向量进行比较,SPEC选择了将相似值分配给根据K相似的实例的特征。在[2]中,示出了拉普拉斯分数是第二个标准在SPEC中定义的特例。请注意,SPEC也独立评估功能。

SPFS [38]通过保留可以处理特征冗余的样本相似性来执行特征选择。问题可以通过以下公式来表示:

(5)

其中是一个超参数。

MCFS [8]采用两步策略来选择这些功能,以便可以最好地保留多集群数据结构。具体来说,首先可以通过谱聚类(问题(6a))获得聚类指标,然后使用指标矩阵执行特征选择(问题(6b))。考虑以下两个优化问题:

(6a) (6b)

其中是的范数。由于该公式只涉及稀疏特征问题和L1正则化最小二乘问题,所以问题(6)可以很有效。

在假设输入数据的类标签可以通过线性分类器预测的情况下,UDFS [10]将判别分析和- 范数最小化结合到无监督特征选择的联合框架中。可以通过优化以下问题来执行特征选择:

(7)

其中是正则化参数。

NDFS[39]执行谱聚类学习输入样本的聚类标签,在此期间特征选择被同时执行。集群标签和特征选择矩阵的联合学习使NDFS能够选择最具有判别力的特征。为了学习更准确的聚类标签,对类别指示符明确施加非负约束。其表述如下:

(8)

其中和是平衡参数。由于存在正交约束,问题(8)的优化是困难的。NDFS使用罚函数的思想来解决这个问题。

矩阵分解已被证明对执行特征选择有效。EUFS [40]嵌入了特征选择通过稀疏学习转化为聚类算法而无需转换。问题可以表述为:

(9)

其中和是平衡参数。范数应用于成本函数,以减少噪声和异常值的影响。为了获得更多的稀疏解,已经使用正则化。文献[40]中的作者开发了一种新的迭代法,称为乘法器交替方向法(简称ADMM)来优化问题(9)。

4 实验

由于纸张空间的限制,在本节中,我们仅针对无监督特征选择进行了大量实验。在我们的实验中,我们使用了12个公开可用的数据集。

4.1 数据集

实验在12个公开可用的数据集上进行,包括5个图像数据集(PIX10P,PIE10P,COIL20,ORL和JAFFE),两个手写数字数据集(MNISIT和BA),两个文本数据集(tr11和oh15),三个微阵列数据集(TOX -171,Tumors9和Leukemia1)。表1总结了这些数据集的统计数据。

表一 数据集说明

4.2比较算法

在我们的实验中,已经考虑了上面提到的现有技术的无监督特征选择方法。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[22870],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版