全文总字数:2302字
1. 研究目的与意义
主要研究基于随机森林的变量选择及其在实际问题中的应用,介绍和分析这一重要方法的理论和计算步骤,并结合一些实际案例和数据,展示其广泛的应用性。其目的是通过介绍和分析基于随机森林的变量选择,掌握一些变量选择的基本概念和基本应用。
通过实际应用,展示数学理论与方法,特别是概率统计理论和方法中的变量选择方法,结合计算机知识在解决现实问题中的重要作用,将所学理论知识与具体实践相结合,为生产实践服务,为科学研究服务,真正做到学以致用,这具有十分重要的意义。
2. 国内外研究现状分析
数据挖掘是在大数据中提取客观规律的方法与艺术,如何准确与快速地提取合适的特征变量是研究的关键问题之一。目前,国外对于变量选择的研究主要集中于医学统计领域,以贝叶斯方法为主,如kyeong eun lee等(2003)人提出一种多层次的贝叶斯方法,对具有小样本、多变量等特征的医学问题进行分析。在医学领域之外,主要集中在神经网络提取变量能力的研究,如bowden等(2005)人基于som算法、遗传算法及神经网络的som-gagrnn模型,并与pmi算法进行变量选择效果的对比;国内对变量选择的研究如王大荣等(2007)人对线性模型变量选择的子集选择法与系统压缩法进行了对比分析,并基于akaike信息准则提出了新的eaic准则,对只有分布一阶矩和二阶矩指定条件下的联合广义线性模型进行变量选择研究;杨蕾等(2011)人基于神经网络模型,引入偏微分法、轮廓图法、权重法、扰动法和逐步回归法等变量选择方法,对比测度输入变量对输出变量的相对贡献大小的效果;张波等(2012)人对高维面板数据模型的降维技术进行了讨论,对混合效应模型随机效应中的高维协方差矩阵以及经济数据中出现的多指标大维数据的研究进展进行评述。
而随机森林的引入最初是由leo breiman(2001)在论文《randomforests》中提出的,描述了一种结合随机节点优化和bagging,利用类cart过程构建不相关树的森林的方法。此外,本文还结合了一些已知的、新颖的构成了现代随机森林实践的基础成分,特别是使用out-of-bag误差来代替泛化误差以及通过排列度量变量的重要性,成为机器学习领域的一个里程碑。此后不少学者对随机森林进行了研究,有系统讲述这套方法的,如robingenuer等的《randomforests:somemethodologicalinsights》以及方匡南等(2011)的《随机森林方法研究综述》。
随之,在机器学习的诸多算法中,鉴于随机森林在数据挖掘中具有筛选变量的功能率,高效而准确,被广泛应用于各个领域。如:李贞子等(2012)探究了随机森林在代谢调控关系中的应用,模拟实验结果显示,对于具有相互交互作用及其他非线性关系的模拟数据,随机森林回归模型的效果明显优于多元线性回归模型,分析出各个自变量对应变量作用的重要性;徐戈等(2014)利用随机森林模型对房产价格的评估进行了研究,对多个变量挖掘出特征变量的重要性排序;张丽莹(2016)研究了随机森林在服务指标选择中的应用,通过随机森林模型对影响服务业发展水平的指标进行了有效的选择,从而识别和分析了服务业发展情况;李欣海(2013)研究了随机森林模型在分类与回归分析中的应用;梁慧玲等(2016)利用随机森林算法对森林火灾的预测进行了研究,得出随机森林算法的准确率要高于二项逻辑斯蒂回归模型,更好地对样本进行了变量的选择。
3. 研究的基本内容与计划
首先,详细介绍基于随机森林的变量选择方法的起源、发展及具体应用;其次,具体分析随机森林方法的原理及其有关性质;再者,详细分析基于随机森林的变量选择的具体算法;最后,结合不同领域的实际数据,并运用本文介绍的方法去具体计算,验证所提出的的理论算式。时间安排:
1查阅文献,了解研究动态,做开题报告。 2019.2.262019.3.15
2理论分析,利用所学知识撰写论文初稿。 2019.3.162019.5.05
4. 研究创新点
详细介绍基于随机森林的变量选择理论与方法,系统梳理和总结一些基于随机森林的变量选择与其他变量选择方法,并通过实际案例,介绍基于随机森林的变量选择方法在各个领域的具体应用。
尝试基于软件R,对搜集到的不同领域的实际数据,进行分析,得出有意义的结论。
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。