基于Adaboost-SVM的中小企业信用风险评估开题报告

 2021-08-14 18:17:47

1. 研究目的与意义(文献综述包含参考文献)

1.1研究目的和意义

近年来,信息技术的迅猛发展给各行各业带来了根本性变革,无论是学术界、商界、还是政府部门,各个领域都产生了大量的数据,这些海量数据推动着信息社会进一步发展,迎来了大数据时代。例如,利用模式分类算法来辅助病例诊断,这样一方面可以提高诊断的效率,另一方面可以减少人为主观因素对诊断结果的干扰。文档自动化归类也成为应用的一大热点,随着互联网技术的广泛应用,人们可以通过模式分类算法对这些文档进行自动归类,这样就大大降低了自己的工作量。利用传感器等设备来对系统的运行状态进行监测,需要监控的系统零部件可能数以千计甚至更多。每个零部件表征了系统某一方面的特性,为了能够高效地执行分类预测算法,需要对传感器监测到的特征变量进行数据预处理,从众多数据中提取出最能表征系统状态的变量。同时,模式分类算法也可以应用到设备的故障诊断和预测等领域。因此,如何对各领域产生的非平衡小样本数据集进行分析和处理已经成为一项重要课题。

尤其从20世纪90年代以来,随着机器学习和数据挖掘技术的进一步发展,数据不仅呈现出维数高的特点,同时其包含标记信息(例如类别)的样本数目却较少。所谓的不平衡小样本数据是指相对样本维度而言,样本数目过少,而且不同类别的样本数目及分布相差很多。小样本的概念则强调的是相比样本维度,样本数目较少。传统的机器学习方法一般都是建立在各类样本的数目及分布大致平衡的基础之上。对于各类样本出现不平衡时,传统的学习方法的性能往往会严重变坏。极端情况下,会导致学习建立的模型失去意义。因此,非平衡小样本问题的研究一直是机器学习和数据挖掘技术的热点[1]

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容、问题解决措施及方案

2.1 课题研究目标

近年来,随着机器学习和数据挖掘等应用领域的扩展,人们遇到越来越多的不平衡小样本数据。高维小样本数据给传统的机器学习算法带来很大的挑战,模型建立所需的时间和空间资源要求很高。本文的研究目的在于利用传统的特征提取方法来对小样本数据进行降维,并解决特征提取算法参数设定难问题。这样可以在一定程度上提高降维效果,最大程度地保持原始数据的特性,以缓解样本的不平衡性给既有数据挖掘和机器学习算法带来的影响。

2.2 课题内容及方案

2.2.1.本课题所涉及的内容和流程图如下:

当数据集不平衡时,大部分分类算法不能对小类做出有效的识别,导致分类效果很差。近年来,不平衡数据集的分类问题已经成为机器学习领域研究的热点问题。基于此,本课题提出了一种优化的SVM集成分类器模型,采用KSMOTE对非平衡数据处理并用Boostrap抽样,对抽样数据集生成相应的SVM模型,利用复合形算法(Complex Method)优化SVM模型中的核函数参数和惩罚函数 ,使用优化的参数 和 并行生成SVM模型,最后对每个基分类器集成采用投票机制得出最终的分类结果。

(1)对非平衡数据进行特征提取后,在对数据进行平衡化处理,本课题利用KSMOTE算法,先利用k近邻删除训练集样本中容易与少数类混淆或异常的多数类样本,再对新生成的训练集利用SMOTE算法进行少数类样本的扩充,有效提高分类器的分类性能。

KSMOTE算法步骤如下:

首先, 寻找训练集 中的所有多数类样本 的 个近邻样本,若这 个近邻的类标与 不同,则将 放入集合 中。

然后,对训练集 中的少数类样本 找寻它的 个近邻样本,若这 个近邻样本均为多数类且将 判为多数类样本,同时训练集此时的样本数不小于 的一半时,则将这 个近邻放入集合 。

最后,对训练集 中的少数类样本Fi利用过抽样算法SMOTE进行扩充,对于每个少数类样本,寻找它在少数类中的 个近邻样本,再根据过抽样倍数的要求从中任选 个近邻样本,按照下式产生新的合成样本:

(1)

其中 是 与第 个近邻的矢量差, 是(0,1)之间的随机数。这样,少数类样本就被扩充了 倍。

(2)数据平衡化处理后,建立模型,在众多的集成学习方法当中 AdaBoost 算法是比较常用的一种学习算法。它是一个框架算法,对于其中的基分类器可以选择具有任意形式的学习方法。本课题在不平衡数据集的分类算法的选择方面采用基于 AdaBoost-SVM 的分类算法。在AdaBoost 算法中主要采用Bootstrap采样方法(一种可重复采样方法),重抽样示意图如下:

与其相结合使用的分类器使用Vapnik[12]提出的SVM,它采用支持样本权重的版本即分类器的输入除了有训练样本集之外,还有一组权值参数用以表示每个样本的权重。在集成学习策略当中采用的是同种类型的分类器,而各分类器之间的不同点在于输入样本的权重不一样。

(3)对分类算法进行评估,在机器学习领域对于学习得到的分类器的性能的评价最常用的方法是分类精度(accuracy),表征了模型对于样本的分类准确度。方法有混淆矩阵(表),定义如下:

Confusion table

True Labels

Number of Classified As

Negative

Number of Classified As

Positive

Negative

TN

FP

Positive

FN

TP

表中的 TN 项表示数据集中负例样本被分类器分类到负类当中去的样本的数目,即被正确分类的负类样本数目。表中的第一行的第二列中的 FP 表示数据集中的负例样本被分类模型分类到正例的样本数目,即被错分的负例样本。表中第 2 行第 1 列的 FN 表示数据集中的正例样本被分类器分到负例的样本数目,也就是被错分的正例样本的数目。表中的最后一项 TP 表示被正确分类的正例样本的数目。通过此表可以引申出一些常用的学习算法的性能度量准则。最常用的分类精度的定义如下式:

还有就是基于 ROC 曲线的分类算法性能评估,ROC 曲线产生过程非常简单,就是将分类器获得的(FP,TP)点对连成曲线。对于一个给出离散的类标签信息的分类器,可以通过交叉验证的方法获得多组点对,然后将各点在 ROC 平面上表示出来,最后用光滑的曲线连接这些点,就可以得到最终的曲线。这样,将不同的分类器获得的 ROC 曲线画在同一平面图上,就可以根据曲线的相对位置分布来分析分类器的性能。

2.2.2小结

本课题着重研究了如何减缓这类数据给分类学习算法带来的性能下降以及执行开销增大问题。本课题主要从两部分入手,第一部分是从小样本性给机器学习算法带来的挑战展开研究,对小样本数据通过特征提取方法来对样本进行降维;第二部分是针对样本的不平衡性给分类算法带来的影响,从数据和算法层面上分别进行处理。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付