1. 研究目的与意义(文献综述包含参考文献)
文献综述
一、研究背景
20世纪90年代,Vapnik等人提出了支持向量机SVM(SupportVectorMachine)它建立在统计学习的VC维理论和结构风险最小原理基础上,较好地解决了小样本、非线性、高维数和局部极小点等实际问题。SVM不仅迅速发展为基于统计学习理论(StatisticalLearningTheory,简称SLT)的机器学习算法,而且成功地应用于分类、函数逼近和时间序列预测等方面。由于SVM通过寻求结构风险最小化来实现实际风险最小化和进行二次优化,因此,在样本量较少时,也能保证所得到的解为全局最优解。在工程领域中,缺失值填补的问题也可以看作一种对各种工程数据及其各个影响因子间的复杂的非线性函数关系的逼近问题。
随着信息技术的发展,越来越多的数据被存储到数据库中进行分析,数据挖掘技术就是一种从大量数据中挖掘出有效信息的重要方法。然而通常的数据挖掘方法均要求数据是完备的,也就是说数据库中的数据应该是不存在缺失值的,而这一点要求在实际生活中往往是很难满足的。比如学校里的学生数据库,往往会存在某些学生没参加考试导致某课程没有成绩的情况,这就导致了数据库表中往往存在空缺值。因此有效地进行缺失值填补对于数据挖掘起着至关重要的作用。
对于数据集合上的缺失值填补,以往的填补方法如:均值填补、全局常量填补或者基于决策树回归的缺失值填补方法均有一定的不足。均值填补和全局常量填补等方法由于不能很好地拟合原始数据而导致缺失值填补准确率上存在不足,基于决策树回归的缺失值填补方法则对于噪声过于敏感,缺失值填补准确率也受到了一定程度的影响。因此,研究高效准确的缺失值填补方法,对信息技术的发展起着至关重要的作用。
二、研究现状
目前SVM学习方法已经获得了广泛的应用,涉及到经济分析、生物识别技术,信号识别和预测、图像识别等多个领域。从最初SVM方法的简单应用研究,到多种方法的联合应用,互相取长补短,不断改进,获得了大量有价值的研究成果。
在回归方面,主要实验尚属于原理性研究,包括函数逼近、时间序列预测及电力负荷预测、信号或图像滤波等方面。支持向量机在高维空间中表示复杂函数是一种有效的通用方法,也是一种新的、很有发展前景的机器学习算法。
鉴于支持向量机可以有效地对原始数据进行拟合并且具有较好的抗噪声性能,因此研究基于支持向量机的数据缺失值填补方法,利用了支持向量机对数据良好的拟合与泛化能力,可有效地提高数据缺失值填补的质量。
三、支持向量回归的产生和发展
支持向量机是从感知机发展而来的,是统计学习方法中比较著名的算法,其核心内容是在1992年到1995年间Vapnik等人提出的,目前仍处于不断发的阶段。
假设给定一个特征空间上线性可分的训练数据集,学习的目标是找出这样一个分离超平方面,它能正确地把实例分到不同的类中。如果我们使用感知机来求解这个问题,我们可以找到这个分离超平面方程wx b=0(可以将实例分到同的类中),不过这时的分离超平面方程wx b=0却有无穷多个解。与感知机最大的不同是,支持向量回归在解决这个问题时,要求所有类上的点到分离超平面的间隔距离要最大化。支持向量机以最大间隔化的要求来求最优分离超平面,求得的解则是唯一的。
由于大部分情况下,数据在特征空间上并不总是符合线性可分的假设。数据变量在特征空间上有时是非线性可分的。为了解决非线性分类,支持向量机又引入了核函数。核函数通过映射把输入样本特征空间映射到高维的空间,转化成在高维特征空间中求解线性支持向量机。
支持向量回归是由支持向量机发展而来的。支持向量机将实际问题通过非线性变换转换到高维的特征空间然后寻最优的分离超平面wx b=0来实现分类,而支持向量回归则是在转换后的高维特征空间上面求解最优的线性回归方程y=wx b,使其能够拟合目标值。支持向量回归的的主要目的是用支持向量机的思想来解决回归问题。支持向量回归的具体算法有ε-SVR、v-SVR等,ε-SVR是比较常用的支持向量回归。
四、支持向量回归的主要特点
支持向量回归具有以下几个主要特点:
(1)具有坚实的理论基础;
(2)Vapnik将支持向量回归问题归结为求解一个凸二次规划问题。从理论上讲,将得到全局最优解;
(3)算法将实际问题通过非线性变换转到高维特征空间。在高维空间中进行线性回归来实现原空间中的非线性回归。算法的性质能保证回归模型有较好的推广能力。同时它巧妙地解决了维数问题,,其算法复杂度与样本维数无关;
(4)支持向量回归算法完全根据部分训练样本构造回归函数,不需要关于问题和样本集或是回归函数结构的先验信息,因此,对于给定的随机分布的样本点,不同结构的SVR(SupportVectorRegression支持向量回归机)方法将给出基本相同的结果,这是它优于神经网络的一个方面。
相对于在分类领域的应用实验,SVM在回归方面的应用研究相对来说较少,有待进一步的深入探讨。开展SVR方法的研究,推广SVR的应用,对解决许多实际的难题,具有十分重要的意义。
四、缺失值填补方法简述
缺失值是在数据库表中经常遇到的现象,为了有效地进行数据挖掘,必须合理的填补缺失值。下面对现有的比较经典的缺失值填补方法进行介绍。
(1)人工填补空缺值通常人工填补空缺值费时费力,尤其是信息科技高速发展的今天,数据库表中往往存储着海量的数据,因此该方法几乎是不可能的。
(2)全局平均值填充该方法是指使用数据库表中缺失值属性的平均值来对缺失值进行填充。该方法比较简单,但是可信性不高。
(3)全局常量填充使用一个全局常量进行缺失值的填充,该方法固然简单,但是很容易导致数据挖掘算法误以为形成了数据库表中存在一个特殊的规律。
(4)决策树归纳填充该方法是指利用数据库表中已有的数据构建一个决策树,然后对缺失值进行预测,将该预测值作为最可能的值进行缺失值填充。该方法较第二和第三两种方法,缺失值填充的效果要好很多,这主要是因为该方法可以利用所有的数据信息,可以对数据的走向进行更好的预测,因此缺失值填充的可信性较高。然而由于决策树对于噪声样本过于敏感,因此对于原始数据中的缺失值填充的仍不是很合理。
(5)支持向量回归该方法有效地对原始数据进行拟合并且具有较好的抗噪声性能,利用了支持向量机对数据良好的拟合与泛化能力,可有效地提高数据缺失值填补的质量。
五、缺失值类型及填补算法
表1连续属性缺失数据库表
ID | 属性1 | 属性2 | 属性3 |
1 | 0.89 | 0.75 | 10.2 |
2 | 0.82 | 0.79 | 11.3 |
3 | 0.70 | 0.61 | 12.5 |
4 | X | 0.60 | 10.9 |
其中X表示缺失值。对于缺失值属性是连续属性的情况,填充可以使用SVM回归方法进行预测。如表1,可以去前三个数据作为训练样本,后一个作为测试样本。利用前三个训练样本进行支持向量机回归训练,得到决策函数,最后就可以利用该函数进行预测,从而求得X的预测值。如果缺失值属性是类别
属性,如表2所示。
表2类别属性缺失数据库表
ID | 属性1 | 属性2 | 属性3 |
1 | 0 | 0.75 | 10.2 |
2 | 0 | 0.79 | 11.3 |
3 | 1 | 0.61 | 12.5 |
4 | X | 0.60 | 10.9 |
对于缺失值属性是类别属性的情况,填充可以使用SVM分类方法进行预测。利用前三个训练样本进行支持向量机分类训练,得到决策函数,最后就可以利用该函数进行类别判定,求出在给定特征向量{0.60,10.9}的条件下的X的预测值。
MVFSVM算法
输入:不完备数据表
输出:完整数据表
方法:
第一步:扫描不完备数据表,记录每一个缺失值在数据表中的位置a(i,j)和数据表中缺失值个数n。
第二步:while(n>0){
判断当前缺失值的属性类型;
case(连续属性)
构造支持向量回归器,并对当前缺失值进行填充;
case(类别属性)
构造支持向量分类器,并对当前缺失值进行填充;
n--;
}
第三步:返回完整数据表
参考文献
[1]张婵.一种基于支持向量机的缺失值填补算法[J],计算机应用与软件,2013,5(30):227-228
[2]林诗杰,黎建辉,何洪林,郭旦怀.一种基于支持向量回归的蒸散发数据缺失插补方法研究[J],科研信息化技术与应用,2013,3(4):6875
[3]陶卿,曹进德.基于支持向量机分类的回归方法[J],软件学报,2002,13(5):1025-1028
[4]孙德山.支持向量机分类与回归方法研究[D],长沙:中南大学,2004
[5]冼广铭,曾碧卿,冼广淋.支持向量机在分类和回归中的应用研究[J],计算机工程与应用,2008,27(44):134-136
[6]冼广铭,曾碧卿.支持向量回归机算法及其应用[J],计算机工程与应用,2008,17(44):40-42
[7]王广云,倪青山,邱浪波,王正志.一种基于KNN-SVR的基因表达缺失值的估计方法[J]国防科技大学学报,2009,31(1):
[8]易辉.基于支持向量机的故障诊断及应用研究[D],南京航空航天大学,2011
[9]金勇进.调查中的数据缺失及处理缺失数据及其影响[J],数理统计与管理,2001,20(1):59-63
[10]金勇进.缺失数据的插补调整[J],数理统计与管理,2001,20(5):47-53
[11]DebasishBasak,SrimantaPal,DipakChandraPatranabis,SupportVectorRegression[M].NeuralInformationProcessingLettersandReviews.2007,204-206
[12]B.Apolloni,D.MalchiodiandL.Valerio.Relevanceregressionlearningwithsupportvectormachines[J].NonlinearAnalysis,2010,73:2855-2867.
[13]T.Farooq,A.GuergachiandS.Krishnan.Knowledge-basedgreensjernelforsupportvectorregression[J].MathematicalProblemsinEngineering,2010.5(30):28-34
[14]W.Hong.Ahybridsupportvectormachineregressionforexchangerateprediction[J].InternationalJournalofInformationandManagementSciences,2006,17(2):19-32.
[15]V.CherkasskyandY.Ma.PracticalselectionofSVMparametersandnoiseestimationforsvmregression[J].NeuralNetworks,2004,17(1):113-126.
[16]LingWang,DongmeiFu,QingLi,ZhichunMuModelling.Modellingmethodwithmissingvaluesbasedonclusteringandsupportvectorregression[J].JournalofSystemsEngineeringandElectronics,2010,21(1):142-147
2. 研究的基本内容、问题解决措施及方案
一、本课题要解决的问题
本课题主要对支持向量回归方法进行调研,并将其运用至各类缺失值的填补中。
研究内容:
