使用双变量极地图和k均值聚类来表征和理解排放源外文翻译资料

 2022-12-12 17:30:08

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


使用双变量极地图和k均值聚类来表征和理解排放源

David C. ,Sean D.

伦敦国立学院环境研究组,斯坦福大学150号富兰克林威尔金斯大厦街,伦敦SE1 9NH,英国

摘要:本文开发了双变量极地图作为源检测的方法。双变量极地图提供了一种联合风速,风向依赖大气污染物浓度的图形化显示方法。双变量极地图提供了区分不同的有效图形化方法源类型和特征。在目前的工作中,我们将k-means聚类技术直接用于双变量极地图的识别及相似特征的组合。该技术类似于在区域尺度上应用后向轨迹的聚类方法。当应用于来自具有高源复杂度的监控站点的数据时,该技术能够识别环境监测数据中的重要聚类,并附加分析显示其具有不同的源特征。重要的是,本文用确定的集群与已知的排放特征关系来确认分析中得出的推论。开发的方法广泛应用于空气污染监测数据的分析并且作为Openair R软件包的一部分免费提供。

关键词:源检测,排放清单,受体建模,氮氧化物,飞机

1引言

1.1背景

如果要有效控制空气污染,确定不同来源的空气污染的存在和特点很重要。理解空气污染源的一种方法是分析环境浓度测量。甚至相对直接的分析可以提供其他方式难以获得的来源的重要信息。这些分析可以带来新的发现。例如以前未知的来源或来源特征,这与以前的想法不同。

聚类分析是大气科学中常用的技术,并经常用于后向轨迹分析。 在当地规模(asymp;1-10skm)背部轨迹没有任何意义。然而,风速和风向是这样提供有关源特征的有用信息。目前的工作汇集了非参数平滑方法,通过集群分析来识别本地来源,来帮助组合具有相似特征的源区域。

2方法

2.1双变量极地图

双变量极地图显示了某种污染物的浓度如何与极坐标中的风速和风向联合变化。已经证明,这些图在一系列设置中是有用的,比如描述街头峡谷的机场来源和分散特征(Carslaw et al., 2006)。 风速与风向联合起来,在辨别不同的发射源方面非常有效。通过使用极坐标,提供了一种可以提供源的方向信息的图形技术。

双变量极地图以下列方式构建。首先,将风速,风向和浓度数据划分为风速方向“箱”,并为每个“箱”计算平均浓度。大量数据测试表明,在10度和30度风速间隔的风向能获得浓度分布的有效信息。通常可用的风向数据舍入到10度,并且对于典型的风速在0至30m /s范围内的表面进行测量。基于对仪器精度的考虑,大于30的间隔将难以证明。以这种方式对数据进行分类并不是绝对必要的,但是作为有效的数据缩减技术,这不会影响数据本身的保真度。此外,由于大气中固有的风向变异性,通常用于构建双变量极地图的数周,数月或数年的数据趋向于扩散,并且不随风向或速度而急剧变化。

风分量和被计算,即

, (1)

其中是平均小时风速,是平均风向,度数为90度,为东部。

上述计算提供u,v,浓度(C)表面。 虽然可以直接使用这个表面数据,但更好的方法是对表面进行建模,以将浓度描述为风力分量u和v的函数,来提取实际的源特征而不是噪声。使用广义加法模型(GAM) e.g. (Wood, 2006)来拟合一个灵活的表面框架. GAM可以如等式(2)所示表示:

(2)

其中是第个污染物浓度,是反应的总平均值,是协变量和的第个值的各向同性平滑函数,是第个残差。如所述,采用惩罚性的回归样条来模拟曲面。注意,是平方根变换的,因为变换通常产生更好的模型诊断,例如 正态分布残差。此外,所使用的平滑函数是各向同性的,因为u和v在相同的尺度上。各向同性平滑避免了在不同尺度上平滑两个变量的潜在难题,例如风速和风向会导致进一步的复杂化。

双变量极地图的例子已经考虑了两个地点和两个对比污染物。首先,如Carslaw et al. (2006)所描述的那样,已经分析了伦敦西部靠近希思罗机场的LHR2站点(2000年至2010年)的小时NOx数据。该网站处于高源复杂性的区域,并进行了有趣的案例研究。它受到南部机场,大量当地来源(主要是道路),东部城市伦敦的大部分地区的影响。其次,来自中央伦敦马里波恩路中心的SO2数据已经分析。玛丽莲骨路(Te Marylebone Road)站距离繁忙的伦敦市中心有1米。

图1(a)显示了LHR2位点的NOx浓度的双变量极坐标图。图1(a)中最明显的特征是在低风速下的较高浓度的NOx,这通常在城市背景型场所出现,其中较高的浓度来自更稳定的大气条件和在低风速条件下存在的降低的平流。然而,也有迹象表明,西南和东北部的NOx浓度升高。这些迹象将会进一步调查研究。原则上,可以基于风速方向间隔对数据进行子集,任何这样的选择将是任意的,并且受到决定特征边界所需的判断的影响

图1:(a)LHR2站点(2000至2010)的NOx浓度的双变量极地图。颜色标度显示了以mu;g 为单位的NOx浓度,径向尺度显示了风速从中心向径向外侧增加的风速。(b)伦敦马里波伦路站点(1998至2005)SO2浓度的双变量极地图。色标表示SO2浓度,单位为mu;g,径向刻度显示温度(℃),从图中心径向向外增加。两个地块都使用小时数据。

图1(b)显示了以风向和表面温度的函数绘制的马里波恩路路段SO2浓度的双变量极坐标图。在图1(b)中,显然SO2浓度对温度有明显的依赖性,当风向东方向时随着环境温度升高,SO2浓度增加。浓度随着温度的升高而增加的原因是当热湍流增加时,在不稳定的大气条件下将来自远距离烟囱叠层(asymp;30公里)的羽流分散到地面水平。

虽然双变量极地图提供了潜在来源,其位置和风速或其他变量依赖性的有用图形指示,但它们仍有一些局限性。通常,某个“特征”被检测到,但其后续的分析将会基于对感兴趣的风速方向间隔的调查判断。此外,特征的识别可以取决于所使用的色标的选择,这使得该过程有些随意。

2.2 k均值聚类

k均值聚类是一种可以识别和分组双变量极地图特征的模式。以这种方式分组数据的主要目的是通过集群识别原始时间序列数据中的记录来使后期处理更好地了解潜在的来源特征。

聚类数据思想的核心是距离的概念,即点之间的相似性或不相似性的一些度量。集群应该由相对于集群之间的距离相距较小的点组成。图1所示的浓度的相似性由三个变量决定:u和v风分量以及浓度C。这三个变量在表征浓度位置信息方面同等重要,但是它们以不同的尺度存在,即风速方向测量和浓度。LetX=,=1,hellip;,n是一组要聚集成k个聚类的n个点,C=。通过最小化获得K集群的基本k均值算法:

(3)

其中是一个选择的距离度量,是集群的平均值。

距离度量被定义为欧氏距离:

= (4)

其中x和y是两个J维向量,通过减去平均值并除以标准偏差而被标准化。在当前情况下,J的长度为3,即风力分量u和v以及浓度C,每个都是标准化的。标准化是必要的,因为风力分量u和v对浓度C来说是在不同的尺度上的. 原则上,可以对浓度而不是u和v组分赋予更多的重量,尽管这将倾向于识别具有相似浓度但不同来源的集群,但这不是目前工作的目的。

3结果与讨论

3.1集群识别

对于2和10之间的集群的NO x表面进行了聚类分析,如图1(a)所示。需要较少的集群将图1(a)中观察到的特征应用到西南和东北。对于4个集群,较高NOx浓度的复杂特征由集群2表示。随着使用的集群数量的增加,此特征将保持不变。直到有8个集群后,西南的特征分为两组。类似地,在集群5中确定的东北部较高的集中度仍然保持,直到集群9进一步分裂为止。在分别识别低风速的高浓度区域之前需要七个集群。

尽管存在许多确定集群的最佳数量的方法,参见Everitt et al. (2011),但在应用于双变量极地图时这些方法无效。因此,选择适当集群的数量是启发式的,并且最好通过集群对数据进行后处理来确定。然而,往往有个先天的原因,怀疑一个二元极地坐标中的一个特征是有意义的,这可以帮助决定选择多少个集群。如Wilks(2005)所述,除非有正确数量组的先前知识,否则最好重复使用假定的不同数量组的k均值聚类,如图2所示。然而,在当前上下文中,k均值聚类是后续分析的前身,用于确定组的分区是否适合正在考虑的应用,如下一节所述。在图2所示的所有曲线中,可以将特定的风速方向集群与原始的小时时间序列数据进行匹配,从而允许根据集群分析数据。特定的集群是否包含有用的信息取决于特定集群代表特征的附加分析。

3.2集群特征

可以使用许多方法来确定不同的集群是否代表不同的源类型。作为分析不同群体特征的一个例子,我们考虑了集群中浓度的重要时间变化。

图2中10集群中的集群2的分析表明,浓度的许多时间分量与其他群体显著不同,特别表现出潜在的受空气影响的特征。10集群解决方案的集群1也可能显示强大的飞机特性。

图2:在LHR2站点识别的浓度为2至10的NOx浓度的集群。

然而,与集群2中的4640小时数据相比,该集群中只有29小时的数据。集群2显示与其他集群不同的特征的原因如下。首先,集群的窄方向范围使飞机的信号最大化。 第二,与集群2相关联的相对较高的风速也使飞机信号最大化。Carslaw et al. (2006)等人以前的工作显示当大多数其他地面级别的浓度显示浓度降低时,来自飞机喷气机的羽流在高风速下具有高NOx浓度。最后,气象条件(风速和方向)范围狭窄,降低了气象对浓度的影响。

为了证明时间特征受飞机排放的强烈影响,进行了集群2的浓度分布与飞行器排放之间的比较。使用民航局(CAA)的数据,提供了2007年4月至2010年4月的个人空调行动的详细资料(143万空运)。这些数据与国际民航组织(ICAO)委员会的排放数据库(http://www.caa.co.uk/default.aspx?catid=702)保持一致,该数据库提供了关于起飞,着陆和滑行的个人空调引擎的数据。计算NOx总排放量,用g 表示。总结这些数据,来提供以g 为单位的飞机NOx排放量的估算,与空气质量数据的时间分辨率一致。排放量仅在地面计算.

图3显示了按小时计算的NOx的飞机排放的时间变化以及与集群2相关的NOx浓度。考虑到10集群解决方案的集群2中的昼夜特征表明,尽管进行了大气浓度测量,但昼夜剖面非常接近于排放日变化。事实上,排放和浓度分布之间的相似性是非常好的,特别是考虑到浓度分布可能受到其他来源和气象的影响。一致性如此之好的一个原因是浓度是相对较窄,一致的气象条件,例如风速相对较高,从而降低气象变化带来的影响。然而,另一个原因是聚类分析已经设法识别出航空源,即一个从大致相同的风向相似浓度的区域。时间变化的其他方面也一致。一周的变化是类似的,没有证据显示在其他集群中排放或浓度的平日变化更多地以道路车辆来源为主。

图3:由从2007年4月至2010年4月的伦敦希思罗机场飞机运动和来自10集群解决方案的集群2的NOx浓度来计算的NOx排放的时间变化。数据已经通过除以平均值在每个案例中被归一化。阴影显示平均值的95%置信区间。时间以当地时间表示。

在为10集群的集群2给出的解决方案示例中,进一步的分析可以提供关于航空排放的具体信息来源。例如,可以使用相同的聚类作为分析其他物种(如果有的话)如PM10或SO2的手段来确定航空排放是否对这些物种很重要。集群数量众多的缺点是可能没有足够的数据来分析-但是这个重要程度将取决于正在考虑的具体情况。

探讨集群中NOx浓度的年平均趋势也是有用的。用集群的Sen斜率估计的Mann-Kendall趋势测试应用于图2所示的集群(Carslaw and Ropkins, 2012)。10集群的集群2给出的解决方案表明该集群的NOx浓度没有下降趋势。斜率计算为0 [95%CI -1.33, 1.21] mu;g y。这些结果提供了有力证据,在过去的11年,希思罗机场的空气中NOx排放没有变化。相反,可以看出,其他集群确实显示NOx的统计呈显著的下降趋势,这是因为它们主要受道路交通排放的影响。

本文开发的方法有很多潜在的用途。该方法在空气质量数据分析方面为双变量极地图的一般用法提供了有用的发展。该方法帮助避免了在如何提取和分析不同的源特征方面决策的随意性。该方法也足以与任何浓度可作为风向和另一个变量例如极坐标系中的风速的函数绘制的污染物配合使用。

这里描述的方法已经在R“openair”包(Carslaw and Ropkins, 2012)中免费提供。

致谢

David Carslaw想感谢英国自然环境研究理事会(NERC)的资助授权参考NE / G001081 / 1。我们感谢民航局在希思罗机场提供综合飞机飞行数据。最后,我们感谢英国大气数据中心(BADC)在伦敦希思罗机场提供英国Met Office表面测量。

Carslaw, D. C., Beevers, S. D., Ropkins, K., Bell, M. C., 2006. Detecting and quantifying aircraf and other on-airport contributions to ambient nitrogen oxides in the vicinity of a large international airport. Atmospheric Environment 40 (28),5424–5434.

Carslaw, D. C., Rop

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[27108],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版