1. 研究目的与意义(文献综述)
1.1研究背景和意义
分类算法常用于提取数据特征、构造数据模型以达到预测和和分类的目的,它作为机器学习算法中举足轻重的一部分,在过去的几十年间有了较好的发展,出现了一批优秀的算法。其中有效率稳定、对缺失数据不敏感的的贝叶斯(bayes)算法;有可以解决高维问题和非线性问题的支持向量机(svm)算法;有高效易于理解的决策树(decision tree)算法;也有构造简单、精度高、不用担心过拟合(overfitting)的adaboosting算法。当然,除了上述这些,还有其他很多独具特点的算法。
但是每一种算法也都存在问题,于是集成学习(ensemble learning)逐渐发展起来。集成学习就是使用一系列模型进行学习,并将各个学习方法通过某种特定的规则进行整合,以获得比单个模型更好的学习效果。作为集成学习中的优秀代表,随机森林(random forest)算法自2001年由leo breiman等人提出后一直拥有广泛的研究和应用前景。它在很多方面相比以往的分类算法都有较大的优势,因此二十年来对它逐渐在各个领域都显示出了举足轻重的意义。
2. 研究的基本内容与方案
2.1基本内容
(1)深入学习并理解机器学习,重点是随机森林算法;
(2)从算法处理的角度了解、分析数据集的特点;
3. 研究计划与安排
(1)2020/1/13—2020/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2020/3/1—2020/4/30:算法设计与实现、模型训练、模型测试与实验分析;
(3)2020/5/1—2020/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
[1] leo breiman.random forests[j].machine learning,2001,45(1):5-32.
[2] zou quan,qu kaiyang,luo yamei,yin dehui,juying,tang hua.predicting diabetes mellitus with machine learning techniques[j].frontiersin genetics,2018,9:1-10.
[3] maniruzzaman md,rahman md jahanur,al-mehedihasanmd,suri harman s,abedin md menhazul,el-baz ayman,suri jasji s.accurate diabetesrisk stratification using machine learning:role of missing value andoutliers[j].journal of medical systems,2018,42(5):1-17.
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。