分析预测PM10和PM2.5的递归神经网络模型外文翻译资料

 2022-12-18 16:08:45

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


分析预测PM10和PM2.5的递归神经网络模型

摘要:大气颗粒物(PM)是一种可能对人类健康产生重大影响的污染物。采用多元线性回归模型、神经网络模型和无递归结构模型对亚得里亚海沿岸某城市三年的数据进行了分析。以实测气象参数和PM10浓度作为输入,提前1 ~ 3天预测PM10日平均浓度。仿真结果表明,与多元线性回归模型和无递归结构的神经网络模型相比,具有递归结构的神经网络具有更好的性能。将PM预测结果与空气质量限值进行比较,以检验其作为运行工具的性能。将一氧化碳(CO)浓度作为模型的进一步输入参数,并对预测的改进进行了评估。最后,利用所有模型对PM2.5浓度进行预测,输入气象数据PM10和CO浓度,模拟未观测到PM2.5的情况。通过对PM2.5观测值与预测值的比较表明,即使输入参数中不包含PM2.5,该神经网络也能够预测PM2.5浓度。

  1. 引言

在过去的几年里,大气颗粒物(PM)对人类健康、生态系统以及建筑物和纪念碑的污染的影响已经成为一个相关的研究课题。PM渗透到呼吸系统的敏感区域,因此吸入PM会加重呼吸系统疾病,并会损害肺组织和喉咙(Turner et al., 2011)。PM10(空气动力有效直径小于10毫米的颗粒物)是最危险的污染物之一;事实上,高PM10水平与肺病和心脏病住院人数的增加有关(Ostro et al., 1999)。几项流行病学逻辑研究(Dockery and Pope, 1994, Katsouyanni et al., 1997)强调,PM可以严重影响人类健康,即使在相对较小的浓度的环境空气中。PM2.5(空气动力学直径小于2.5 的PM)对人体健康的影响比PM10更大,因为它在呼吸系统中渗透得更深(Dockery et al., 1993;波普等,1995年,2002年;Monn, 2001)。因此,研究PM10和PM2.5的形成、演变及其可能的控制策略越来越受到人们的关注。

气象条件对PM10积累有影响,可以控制大气PM10的变异性(Amodio et al., 2012;Rodriguez等,2001)。PM10浓度升高通常是不利的气象条件造成的(Grivas and Chaloulakou, 2006, Carnevale et al., 2010)。为了减少PM10的健康影响,欧洲不符合健康标准进行建立了PM10和PM2.5在欧盟指令(2008/50 / CE)日均的阈值被固定在50 / m3不能超过一年超过35天,每年40 / m3的上限可吸入颗粒物;此外,PM2.5的年上限为25 /m3。

大气成分的预测对空气质量的管理有重要的帮助;预测空气质量仍然是一个挑战,因为所涉及的过程的复杂性和许多参数之间的强耦合,影响建模性能(Leksmono et al., 2006; Mallet和Sportisse, 2008)。传统的预测方法是基于多变量统计分析,但近年来,人工神经网络(ANN)已被广泛应用于颗粒物污染物(尤其是PM10和PM2.5)的建模,ANN正成为一种有效的、流行的替代传统方法的技术。神经网络是处理环境污染等非线性系统的一种有效方法。人工神经网络已被用来根据立法和现有的空气质量标准预测PM浓度的日平均浓度与气象变量的关系(Perez和Reyes, 2006;Voukantsis等,2011;Abderrahim等人,2016),以控制短期人群暴露于空气微粒。即使在过去的15年里,已经有几项研究报道了使用人工神经网络技术来预测空气中PM浓度,但关于PM10预测的具体文献是最近才出现的,而且不太常见(Hea et al., 2014;He et al., 2015)。例如,Kukkonen et al。(2003)采用5种神经网络模型、线性统计模型和确定性模型系统来评估二氧化氮(NO2)和PM10浓度和比较结果显示更好的神经网络的预测精度比其他方法,如多元线性回归。Hooyberghs等人(2005)使用ANN模型提前一天预测PM10的日平均浓度。预测次日PM2.5小时值(Perez et al., 2000)和预测圣地亚哥PM10 24小时移动平均值(Perez和Reyes, 2002)的尝试表明,神经网络模型优于多元线性回归模型。Corani(2005)比较了几种神经网络和局部训练的线性模型预测PM10日平均值的结果。Grivas和Chaloulakou(2006)估计了各种神经网络模型的性能,以提供可靠的PM10小时浓度预测,并将其与并行开发的多元线性回归模型进行了比较。Ordieres等(2005)比较了用于预测PM2.5日平均浓度的神经网络模型与两种经典模型(持久性模型和多元线性回归模型)的结果。结果清楚地表明,神经网络方法优于经典模型,使用气象预报器有利于提高模型的性能。这些结果表明,神经网络可以作为预测PM的有效工具。

本文分析了意大利中部海滨城市佩斯卡拉连续三年的PM、CO浓度和气象参数测量结果。利用气象和化学变量作为输入参数,采用神经网络方法提前1 ~ 3天预测PM10和PM2.5浓度。相对于之前的工作,我们采用了更为复杂的递归神经结构,通常称为Elman递归网络(Elman, 1990)。本研究的另一个目的是建立和比较两个系统(递归神经网络和多元线性回归模型(MLR)),这两个系统都使用气象学的数据来模拟空气质量和预测关键污染事件。比较了递归神经网络、非递归神经网络模型和多元线性后悔模型的预测能力。进一步的应用是比较这三种模型预测未来一到三天PM浓度的能力,将CO浓度作为输入参数,因为CO浓度是人为排放的短期指标。最后,测试了所有模型以PM10浓度为输入参数预测PM2.5浓度的能力。

2、站点和观测点

研究区域是亚得里亚海沿岸的平坦地带;具体而言,该观测点位于佩斯卡拉市区南部的一个小公园内,距海岸约20米,紧邻大海(图1)。佩斯卡拉(北纬42.27东经14.15;在海平面上,位于阿特诺-佩斯卡拉河的河口)是阿布鲁佐地区的主要城市,约有12万居民,周边大都市区有40万居民。佩斯卡拉在市区有一个国际机场(阿布鲁佐机场),也是亚得里亚海最繁忙的港口之一。佩斯卡拉谷是该地区最重要的工业区。阿布鲁佐地区的特点是山脉(格格兰萨索山脉和迈耶拉山脉的山峰高达2900米),距离海岸线平行,因此, 它受局部和区域的气象过程,如山风和海风,以及对流过程的影响(Cristofanelli et al ., 2013)。

2011年至2013年,连续测量包括温度、相对湿度、风速/方向压力、PM10、CO、臭氧(O3)、二氧化氮(NO)、二氧化氮(NO2)、二氧化硫(SO2)、苯、甲苯、二甲苯、1,3丁二烯,连续测量PM2.5从2013年2月1日开始。图2给出了观测到的大气参数的时间序列。该地区常年高湿,夏季温暖,气温高达30摄氏度,冬季温和,是地中海地区的典型特征。由于行星界层高度较低,PM10呈现出冬季浓度较高的年循环,夏季浓度较低。类似行为在公司和PM2.5浓度明显(图2)。该网站的另一个特点是强烈的PM10的浓度之间的相关性和公司提出一个共同的来源这些化合物(参见图2)中间面板。详细描绘测量站点和气象观测资料分析中可以在Biancofiore et al。(2015)中找到。

3、模型

多元线性回归(MLR)是应用于多个研究领域的统计技术之一,它可以用来分析各变量之间的关系,预测响应变量的结果。当自变量个数大于1时,采用多元线性回归。根据i的观测,MLR模型为:

图1:佩斯卡拉市中心地图(北纬42.27 东经14.15;在海平面上)在意大利中部。测量场地是阿尔塔(区域环境保护署)的一个站点,位于亚得里亚海前的一个城市公园。

为一组,我观察,是预报值变量的线性组合系数,计算了一组在相关变量X(预测),加上相对系数和剩余误差ε。MLR模型的目标是使用一组变量来找出它们之间的数学关系。为了排除冗余变量,即那些具有强共线性关系的变量,我们使用了一种逐步的技术,关于该方法的详细信息见Di Carlo et al.(2007)。

图2:佩斯卡拉(意大利)气温、相对湿度、CO、PM10、PM2.5、风速的时间序列

ANN是基于相互连接或功能相关的神经元的数学模型,模仿人类生物神经元的行为(Vemuri, 1998, Braspenning et al., 1995)。在实际应用中,神经结构通常是建立在几个层的神经元之间,一层中的所有神经元通过突触权重与相邻层中的所有神经元连接,突触权重在相应的连接层上充当信号倍增器(Comrie, 1997; Gardner和Dorling,1998)。这种结构通常被称为前馈网络(FF-NN),因为输入信号在一个方向上经过多个步骤(层)处理:第一层由输入变量激活,然后将信号传输到第二层,在第二层对该信号进行阐述;然后将第二层的激活状态传输到第三层,以此类推。在递归神经网络结构(RC-NN)中,输入层中很少有神经元是根据中间层节点的激活状态来设置的。换句话说,处理后的信号被反向传播到输入级。本工作中使用的复发神经装置示意图如图3所示;神经元分为三层:第一层称为输入层,由预测器设置,最后一层神经元提供预测量。此外,中间层神经元的状态向输入层反向传播。事实上,秒层的神经元包含前一个时间步的气象和化学参数的压缩信息,因此图3所示的结构实现了作为网络输入提供的事件的一种动态记忆(Elman, 1990)。

图3:具有递归结构的人工神经网络方案

连接神经元的突触权重是通过校准来量化的,通常被称为神经网络的“训练”,使用观察到的输入/输出模式。这一阶段的校准是通过使用最陡下降梯度反向传播算法(Hecht-Nielsen, 1991;在每个训练步骤中,误差函数E计算为观测到的PM浓度和预测PM浓度之间的平均值的平方之差。在我们的简化过程中,第一层神经元的数量是根据输入变量的数量和第二层神经元的数量来确定的。最后一层包含一个表示网络输出的神经元,即预测的PM浓度。选择第二层的节点数是为了将权值的总数限制在比训练实例总数少几倍的范围内,从而避免了一个称为网络过度训练的关键问题(Hecht-Nielsen, 1991)。仅限制突触的重量,可能不足以避免过拟合;为了验证实际的神经装置,泛化能力培训模式分为两种不同的子集:第一子集实际上是用来校准网络(2011年和2012年期间观察到的数据),而第二个是只用于验证结果(2013年期间观察到的数据)。在每个训练周期中,统计误差同时用子集计算,如果用确认子集计算的误差与用校准集计算的相同参数有显著差异(大于1%),则停止校准过程。我们的模型的实际实现,修改版本的JETNET包由Lonbladd et al(1992)开发已被使用。需要对软件进行修改,将Elman未实现的网络架构包含在原始包中(Biancofiore et al., 2015)。

4、预测PM10

预测PM10水平是一个重要的目标,这不仅意味着提前知道PM10浓度高可能影响的潜在区域和时间,而且还意味着简化行动计划,以降低对人类健康的风险。因此,我们使用多元线性回归和神经网络模型来预测PM10浓度,并与欧盟的空气质量限值(2008/50 EC)进行比较。

4.1 评价标准

利用相关系数(R)、归一化均方误差(NMSE)、分数偏差(FB)和因子2 (FA2)四个指标对模型的性能进行了评价。R的计算方法是将观测数据和模拟数据的协方差除以它们的标准差的乘积。该参数计对模拟数据与实测数据之间的总体相关性进行量化,可以从-1到1不等,其中-1表示总防腐关系,1表示总相关关系,0表示无相关关系。计算了模型值与实测值之差的平方和的均值,并将其除以乘积进行归一化。该参数强调了数据集的整体误差,能达到的最佳NMSE值为0。FB的计算是从实测数据的平均值减去模拟数据的平均值,再除以它们的平均值。这个参数在-2和2之间变化。正值表示模型对实测数据的未估计,负值表示高估。FA2是介于0.5和2之间的实测数据与模拟数据的比值。FA2的取值范围为0,表示该范围内没有比值;FA2的取值范围为1,表示所有比值都在该范围内。更多细节可以在Biancofiore等人(2015)的文章中找到。

4.2 仿真结果和模型性能

为研究模型预测PM10水平的能力,采用2011 - 2012年收集的数据对模型进行训练,2013年测量的数据对以下模型进行性能测试:a)采用Elman递归结构的人工神经网络;b)无递归结构的神经网络;c)多元线性回归模型。所有模型均用于预测未来1、2、3天的PM10浓度。在这些模拟使用,作为输入,每日值测量温度、压力、湿度、风速和风向和PM10浓度在时间t,作为输出,PM10浓度在时间 , 在1、2或3天。预测所用变量的选择考虑了以下因素:1)待研究问题的性质,2)数据的可用性,3)前期工作的结果,4)多元线性回归模型的输出,以排除冗余变量。然后在输入参数中加入日浓度为t时的CO值,并对所有模型进行重复模拟,验证该化合物作为PM代理的作用。即使测量了O3、NO、NO2、SO2、苯、甲苯、m二甲苯、1,3丁二烯等其他化合物,我们这里也只报告了包括CO的结果,因为在前期的测试中,只有将CO作为进一步的输入,才能提高模型的预测能力。表1显示了模拟结果。在所有的模拟中,这些指标表明,神经网络性能优于神经网络模型和多线性回归模型。仅使用气象输入,神经网络在未来1天、2天和3天的所有三个预报中都比MLR模型表现出更好的性能。正如预期的那样,两种模型的性能均随数据采集日的不同而降低。图4对比MLR、ANNF和ANNE的结果,提前一天预测PM10,以实测温度、压力、湿度、风速、风向和t时刻PM10浓度作为输入参数日值。从图4可以看出,与MLR相比,神经网络具有更好的性能,Elman体系结构提高了神经网络的性能。<!--

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20077],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版