1. 研究目的与意义(文献综述)
如今,数据分类问题是日常生活中的一个常见问题,在现实生活中许多领域需要解决的问题本质上是数据分类问题,比如生物信息数据分类,商业客户数据分类等,如何采集这些数据中的信息并进行分类,成为了数据分析领域里的一个新的研究热点。其中传统的数据分类方法包括聚类算法、贝叶斯分类算法、决策树算法、支持向量机算法等。近年来,随着各种数据采集技术的快速发展,实际应用中产生并积累了越来越多的高维复杂数据。传统的数据分类算法已经对这些高维数据并不适用,研究针对高维数据的分类算法是当前迫切需要解决的难题之一。机器学习方法是处理这样的数据的理想工具。在机器学习方法中随机森立以它自身固有的特点和优良的分类效果在众多的机器学习算法中脱颖而出。
20世纪70年代末期和80年代初期,j.ross quinlan提出了id3决策树算法,id3作为最早提出的决策树算法,存在较多缺陷。之后leo breiman等人提出了cart决策树算法,其采用计算相对简单的基尼系数来度量,同时树结构为简单的二叉结构,对整个模型进行了简化,具有独特的优势。1993年quinlan又提出了 c4.5决策树算法,c4.5针对这些问题提出解决措施,同时在一定程度上改善了过拟合的问题。这三种算法均采用自上而下的贪婪算法构建一个树状结构,在每个内部节点选取一个最优的属性进行分裂,每个分枝对应一个属性值,如此递归建树直到满足终止条件,每个叶节点表示沿此路径的样本的所属类别。
随着集成学习的发展,tinkam ho在1995年提出了随机决策森林的思想,1998年,他又提出了新的随机子空间的集成方法,美国科学家leo breiman将其1996年提出的bagging集成学习理论与ho在1998年提出的随机子空间方法相结合在2001提出了随机森林算法,从理论和实践两方面做了系统的阐述,自此随机森林算法成为机器学习领域中的一个具有代表性的集成学习的方法。随机森林是以决策树为基本分类器的一个集成学习模型,它包含多个由bagging集成学习技术训练得到的决策树,当输入待分类的样本时,最终的分类结果由单个决策树的输出结果投票决定。
2. 研究的基本内容与方案
2.1研究总体内容、目标:
a. 决策树
决策树是一种树形结构。其中每个非叶节点表示一个特征属性上的判断,每个分支代表这个特征属性在某个判断上的输出,而每个叶节点对应的是一个类别。
3. 研究计划与安排
第1周:下达毕业设计任务书及要求,查阅国内外研究现状等文献;
第2周:查阅文献,讨论毕业设计任务和内容;
第3章:撰写并提交毕业设计开题报告;
4. 参考文献(12篇以上)
[1] xu hao, hewu wang, zhenhong lin,minggao ouyang. seasonal effects on electric vehicle energy consumption anddriving range: a case study on personal, taxi, and ridesharing vehicles.journal of cleaner production, 2019.
