全文总字数:5299字
1. 研究目的与意义、国内外研究现状(文献综述)
近年来由于我国大范围雾霾天气频发,引发了社会各界的持续关注。雾霾天气的产生主要是由于空气中pm2.5浓度的升高,并往往伴随一系列危害,如影响人体健康、降低大气能见度、影响气候变化等[1-3]。根据世界卫生组织2016年公布的世界主要城市大气环境统计结果显示,细颗粒物超过世界卫生组织(who)标准的城市人口高达整体的80%以上,而中国作为发展中国家,在经济快速发展的同时,所产生的环境问题也日益严峻,对于pm2.5污染状况的评估已经上升为一个热点话题[4-5]。
pm2.5的污染状况评估研究需要长期、准确的监测数据,然而在2013年以前,我国仅有少数城市设有研究监测点,研究站点的不足一度阻挠了对pm2.5污染程度及其危害的进一步研究[6-7]。近年来,随着卫星遥感技术的发展,空间统计学方法的不断应用,大尺度范围内的数据获取变得更为容易,pm2.5浓度的准确预测及评估也更为可行。一些统计模型被提出并被应用于pm2.5浓度的预测中,如广义线性回归模型[8],人工神经网络模型[9],线性混合效应模型[10],地理加权回归模型[11]等。
随着大数据时代的到来,机器学习技术被不断地被深入应用。机器学习方法的工作原理是通过某种策略集成多种弱学习器来建立一个强大的学习体系,从而对目标进行决策或回归分析,这种方法称作集成学习。而在其中,基于bagging集成基础上形成的随机森林算法[12]是一种较为新型和前沿的学习方法。机器学习中的bagging算法是让个体学习器尽可能独立且多样,同时要保证足够数量的训练样本,使用相互有交叠的子集从而生成基学习器。而随机森林算法的弱学习器是基于决策树构建的,在构建集成分类体系上不仅保留了bagging算法中样本扰动的思想,而且在决策树的每个结点引入了属性扰动,先随机抽取包含k个属性的特征子集,再从该子集中选择最优的属性。在分类高维数据的时候,速度、精度、稳定性等方面都表现优良,并且可以估算出各个特征变量的重要性[13]。目前,随机森林方法已经在各个领域得到了实际应用,并表现出良好的预测准确性,然而对于pm2.5污染状况的研究还较为缺乏。
2. 研究的基本内容和问题
1.研究目标
1)完成整个系统的基本研究,包括方案论证,理论研究,实验设计等。
2)完成基于随机森林算法的pm2.5浓度预测模型。
3. 研究的方法与方案
1.研究方法
1)采用理论研究的方法:基于随机森林算法,确定相关参数指标,对PM2.5预测模型进行建模。
2)采用实验研究的方法:以R作为工作平台,以中国空气质量观测站点数据作为基础数据,探究随机森林算法在PM2.5浓度预测中的实际应用。
3)采用实证分析的方法:通过交叉验证等手段,与前人研究结果进行对比,验证模型的预测准确性。
2.技术路线
第一,对所需的监测数据进行获取,包括与PM2.5浓度以及气象数据、土地利用数据等相应协变量;第二,进行数据的处理,包括遥感图像空间分辨率的处理以及数据的空间整合;第三,借助R语言,通过编写寻优程序,确定随机森林模型中各项参数;第四,进行相应的输出处理,并记录所对应的各项参数。
3. 实验方案
1)首先需要进行数据的获取:可以借助已有数据平台如中国环境监测中心(CEMC)、欧洲中期数值预报中心等,目前拟获取的数据包括:PM2.5浓度、总云量、温度、风速、气溶胶光学厚度(AOD)、边界层高度(BLH)等。
2)对数据进行预处理:借助Rstudio对数据进行处理,对于PM2.5站点观测数据,将其与对应经纬坐标相匹配,转化为空间点数据,同时读入其他辅助变量并转化为相应的栅格数据,保持所有数据的空间分辨率一致,并且整合至同一栅格上。
3) 确定相应参数:通过编写寻优程序等手段,确定随机森林模型中的决策树数量,各节点的最大特征数量。
4) 随机森林提供了一种基于节点不纯度(Mean DecreaseImpurity)的特征选择方法,即对于随机森林中每颗决策树的每一个节点进行不纯度判断,使得每个结点通过最优属性划分后样本尽可能属于同一类别,随着划分过程的不断进行,结点的类别纯度越高。基于不纯度的划分选择通常采用基尼指数或者信息增益。利用不纯度进行特征选择,并分析不同特征空间组合下PM2.5浓度预测模型的精度。
5) 由于袋外数据(OOB)的工作原理与交叉验证十分相似,因此可以利用OOB对随机森林模型的精度进行验证,同时采用其它模型对PM2.5浓度进行预测,并利用交叉验证的方法比较不同模型下PM2.5浓度预测的准确性。
4. 实验可行性分析
目前已具备了能够提供相关基础数据的平台,相关领域的理论支撑。学校可提供计算机,图书资料,国际联机检索等服务。
4. 研究创新点
基于随机森林算法,以中国全境为研究区域,建立PM2.5浓度预测模型。在研究过程中将采用编写寻优程序的方法确立相应的最优参数,并与前人研究成果进行对比,论证模型的精度。
5. 研究计划与进展
3.1-3.15 搜集和查阅国内外关于pm2.5浓度预测模型的相关研究,据此完成文献综述等部分,构建基本框架。
3.16-3.25 搜集所需的观测站点pm2.5浓度以及协变量,建立起相应的数据库。
3.26-4.15 根据已有数据和理论模型,展开实验操作,并记录相应的结果。
