

英语原文共 22 页,剩余内容已隐藏,支付完成后下载完整资料
空间聚类
Jared Aldstadt
- 引言
空间聚类分析在许多研究领域已经变得普遍,并且最常用于流行病学和犯罪学应用。诺克斯(1989,第17页)将空间聚类定义为“地理上有界的一组事件具有足够的规模和集中度,不可能偶然发生。“这是一个有用的操作定义,但现象很少的情况预计将在空间中随机分布。 在大多数情况下是一个隐含的空间聚类分析中的假设是研究人员已经考虑到所有已知影响学习变量的因素。 这将导致考试的空间建模练习中的剩余空间变化。 空间聚类当不存在先验时,对原始变量或利率进行分析关于过程的假设。
越来越多的方法可用于分析空间聚类。这些技术可以分为两类:那些用于确定研究区域中是否存在聚类,以及尝试聚类以识别集群的位置。第一类测试称为全局测试聚类技术和这些方法提供了一个总结的统计量该地区的空间格局。这些将在以下部分进行讨论。第二种方法称为局部聚类。局部方法检查研究中的特定子区域或社区以确定是否该区域表示高价值(热点)或低价值(感冒)的群集点。这些方法可以进一步区分为聚焦或非聚焦测试。聚焦测试检查一组或一小组预先定义的感兴趣的焦点。非集中测试旨在查找整个存在的集群分析区域。本章将讨论本地聚类方法在第3节中。选择空间聚类方法和一些结论的注意事项在第4节提供了结论。
- 空间聚类的全局测量
用于检测全局聚类的方法也被称为通用测试聚类。 在大多数情况下,零假设是空间随机性之一。 这些方法提供了一个简单的统计量,它描述聚类程度存在于映射模式中。 统计值的值表示是否模式是聚集的,随机的或分散的。 与集群模式相反,一个分散的模式是高值和低值彼此相邻的模式经常比预期的随机模式。 聚集和分散的模式也可能分别标记为正和负空间自相关。
区域数据方法
最初采用的方法处理区域数据或单位的属性映射为多边形。 这些属性是最常见的汇总数据,如密度或每单位人口的比率。 它没有是通常意义的在开展空间分析与空间单位内的事件原始计数时。 很多的属性的变化很可能是单位的大小的函数在单位内有风险的人口。 利率也可能混淆群集当分母的大小存在实质变化时,进行分析用于计算费率。 因此,已经开发了一般测试的变体这说明了人口规模的变化,并考察了空间格局每个空间单位发生的事件的过多或不足。 这些分析不限于规模数据,还有一种检查中的聚类的方法地图与两个类也将进行讨论。
全局聚类统计数据采用一种通用形式来比较相似度的位置到位置的空间接近度的值。 这种统计数据被称为一般的交叉产品统计量,由曼德尔(Mantel,1967)介绍,用于计算两个矩阵之间的相似度。 空间接近在每对位置之间,i和j被表示为并输入n乘n矩阵称为空间权重矩阵。 空间权重矩阵是最常见的表示为W,并在下面进一步讨论。 两个数据值的相似度并且表示为,并且可以被输入到被标记为S的矩阵。当空间邻近度和相似度正相关时,就会指出聚类。总而言之,统计的一般形式是
本节中介绍的每种技术都是这种形式的变体区别变体是价值之间相似性的度量。 经常通过相似性和空间连通性的全局测量法对指数进行归一化。
空间权重矩阵定义了空间关系的结构研究区域。 它定义了聚类技术的聚类范围能够检测。 因此,在聚类中应仔细考虑W的选择分析。 最简单也许最常用的一套空间权重是二进制邻接矩阵。 这里,如果单位i和j共享一个共同边界则等于1,否则为零。 二进制文件有两种变体邻接矩阵 Rook案要求邻居分享一个共同点边缘。 一个常见的顶点或点是女王的邻接所需要的案件。 其他二进制权重矩阵包括多个最近的邻居和具有给定距离的完整的邻居集。 空间关系可能也被定义为单位之间距离的函数。 最常见的元素被定义为
其中是单元i和j之间的距离,alpha;大于零。 这应该还要注意,权重矩阵的对角线值通常被设置为零。
聚类分析中使用的权重矩阵通常是标准化的每行的元素总和为一(行标准化)。 这个程序用于在分析中给出每个观察值相对于其数量的均衡的邻居。 该标准化矩阵的元素计算为
在重量有意义的情况下,不应进行标准化关于分析的解释(Anselin 1988)。 例如,标准化的反距离矩阵将扭曲相对空间关系单位与云解释聚类指数。标准化的影响已经被检测,并提供行标准化的替代方案由Tiefelsdorf(1999)等人提出。 对空间权重的更完整的检验参考许多替代形式的矩阵和几个评论由Getis和Aldstadt(2004)提供。
联合计数统计:联合计数统计是二进制文件的聚类度量资料分类 这些值可以被视为一个两个类别的逻辑地图。 这两类通常被称为黑色(B)和白色(W)。 一个加入是共享边界的两个区域的连续关系的另一个名称。统计值是给定类型的联接数。 每个边界可以连接两个黑色单位(BB),两个白色单位(WW)或每种类型的一个单位(BW)。 Cliff和Ord(1973)将BW连接的数量定义为一般十字产品统计
其中等于1对应于B,等于0对应于W。从连接的定义,权重通常被限制为二进制邻接表示。 在自由抽样假设下,预期随机空间分布中BW连接的数量是
其中J是连接的总数。 p是单位被编码为B和的概率经常被估计为在类B中的单位的比例。q是概率一个单位被编码为W,并且等于一个减去p。 联接次数可以从二进制邻接权重计算
如果这些类聚集在一起,则观察到的BW连接将少于预期。 同样,如果图案分散或类似于棋盘图案,在空间上随机模式中,BW联合将比预期的更多。导出了自由和非自由采样下BW统计量的差异在Cliff和Ord(1973)以及有更多的案件延伸比两类。
Moranrsquo;s I:Moranrsquo;s I是一个众所周知的空间自相关测试(Moran 1950)。 该指数与协方差和相关统计相似。 的措施在两个位置i和j处的值之间的相似性是偏差的乘积在每个位置的值与全局平均值的估计之间。该值由两个位置的空间接近度加权所有位置对的结果值是空间自协方差。标准化指数为:
其中
空间随机分布的期望值为(n-1)以下。随着样品量的增加,这个数量趋于零。 值大于表示具有高或低值的单位的聚类。 价值观小于预期值表示邻近之间的负相关位置。 不像皮尔森的相关系数,莫兰的我没有界限在负一个和一个之间,但通常落在此间隔内(Bailey 和
Gatrell 1995)。 相关图显示为一个数字计算的Moranrsquo;s I的值距离不断增加。 距离通常是相互排斥的距离乐队或连续的顺序。 相关图可用于确定空间自相关程度以及空间自相关距离在何种距离最大化。
Cliff和Ord(1973)在零假设下得出了Morans I的分布对于两种不同的抽样假设。在随机化假设下n观测值是固定的,但是它们随机地被重新定位这些位置以随机的方式。正态假设假定每个位置的值都是从独立的和相同的正态分布中得出的。这两个假设的基础是额外的平衡假设。在空间上下文中,平稳度意味着平均和方差感兴趣的变量在整个研究区域是不变的。Cliff和Ord 1973)证明了在随机化和正态假设两者之间莫兰的我是渐近地正态分布的。当n大时,可靠的意义值可以基于此分布进行计算。 Tiefelsdorf和Boots(1995)表明,收敛到正态的速度是空间的函数权重矩阵和数据值的分布以及样本大小。Besag和Newell(1991)所概述的一种蒙特卡罗方法往往被用于在随机化或正态性假设下产生重要性值。
调整异质方差。 当空间单位差异显着时尺寸,违反常数方差的假设。 具体来说,单位有大人口不太可能偏离全球平均水平人口少(Haining2003)。 沃尔特(Walter,1992)证明了这种变化在风险人口的大小可能会导致错误地拒绝零假设。已经提出了几种方法来测试空间随机假设当背景人口异质时(Waller和Gotway 2004)。Oden(1995)提出了一个基于个人的Morans I,Ipop版本级数据。 推论再次基于随机化假设。 然而,随机化是指个体的状态。 这最常用于疾病聚类的研究,其中病例被表示为一个和剩余的个体被表示为零。 Tango(1995)提出了过度事件测试(EET)被定义为
其中是单位i的个案数,是单位i的人口,C是研究区域病例总数。 像Ipop一样,从预期的变化很大一个地区的案件数量有助于大量统计数据,而Ipop是一个EET的仿射变换(Oden et al.1998;Tango 1998)。 Tango建议距离的函数随着单位之间的重量而呈指数递减,其中是位置i和j之间的距离,lambda;是度量的聚类空间尺度。 最大化超额事件测试(MEET)在lambda;的最合理范围内搜索最小p值(Tango 2000)。 这个方法检查多个尺度的聚类,同时占多个测试。 Assunccedil;atilde;o和Reis(1999)提出了一种经验贝叶斯方法方差不稳定时的标准化率。 在这种方式xi是
在随机的模拟研究中,作者确定了标准化指数比传统的Morans I更强大. Assunccedil;atilde;o 和Reis (1999)也将他们的方法与Odenrsquo;s Ipop进行了比较,该方法在单位检测率异质性方面是强大的,但不能用于检测速率的空间相关性。
Gearyrsquo;s c:Gearyrsquo;s c是采取的空间聚类的替代措施熟悉的交叉产品形式(Geary 1954)。两个位置的相似度被量化为每个位置平方的值之间的差。这导致统计
两个相似的值将对全球价值做出小的贡献,因此,c的低值表示聚类模式。 预期值随机图案是一个,c在0和2之间。 Cliff and Ord(1973)得出了随机化和归一化假设下的差异。
Getis-Ord G: Getis-Ord G统计量量化了它们之间的关系两个地点作为地点价值的产物(Getis和Ord 1992)。统计是
一般G的使用要求分析的变量是正值的天然来源。 随机模式下的期望值为
G值大于由主导的模式产生的预期值由于相邻单位的产品较大,所以价值高。 一个低G值由低值集群所主导的模式产生。 验为空不一定意味着随机模式,但可能导致在研究区域存在高低值群集的情况。 G统计与本节讨论的其他指标不同之处在于它不是严格的聚类度量,而是提供了聚类的类型存在于研究区域。
点数据方法
第二组方法用于分析映射为点的现象。这些可以是一组对象的位置或一组事件的位置。
完整的空间随机性(CSR)描述将发生的点的模式偶然地在完全未分化的环境中。的过程
产生这种模式称为均匀平面泊松点过程。在这个过程点在一个研究中产生的条件是:(a)每个位置在研究区具有相等的接收点概率;和(b)选择一个点的位置独立于现有点的位置。与区域数据一样,模式可能通过聚集或不同于CSR分散在群集模式中,积分平均比预期的要高
企业社会责任在分散的模式中,点在整个研究中是均匀分布的区。
CSR假设是限制性的,并且拒绝该空可能不是有意义的。有少数情况下均匀和独立的概率的发生是合理的。为了避免这个限制性的假设,比较分析进行两个或更多个点图案。这允许检查聚类超越了由于空间变化所预期的发生的概率。目的往往是确定一些属性由于其异质分布,聚类在群体中。分析时一个或多个类型的事件或对象,点模式通常被引用作为标记点图案。
Quadrat analysis:Quadrat analysis是用于测试的第一种技术之一CSR假说。 Quadrat分析涉及将研究区域划分为一个分散或连续相等大小的样本的数量,最初开发在植物生态学文献(Greig-Smith 1952)中。 事件的数量列出每个单元格并计算这些单元计数的频率表。 一个然后进行适合度测试以确定频率是否显着与泊松过程中预期的不同。 过多的数字低和高细胞计数表示聚类模式。 多余的细胞平均密度表示分散的图案。 结果取决于样本的大小,并且经常对一系列样方大小重复进行分析(Boots 和 Getis 1988)。 上述的一般聚类方法也是用于分析聚集成样本的事件模式。
最近邻分析:最近邻分析也有它起源于植物生态学文献。 这些方法是基于每个之间的距离点和最近的邻居。 克拉克和埃文斯(1954)得出了预期的价值以及CSR模式中平均最近邻距离的方差。 使用的平均最近距离提供了一个容易解释的总结统计,但是一个点模式的粗略表示。 例如,几个非常与孤立点相关联的大的最近邻距离可能会掩盖一个否则集群模式。 精简的最近邻分析克服了这个问题通过检查最近邻距离的整体分布。 考试统计量是观察到的最近邻距离之间的最大差值频率分布和零假设下预期的分布(Diggle 1990)。 点数据集的严格分析也可以包括分析高阶邻居。
Ripleyrsquo;s K function:方形分析和最近邻的一个问题分析是他们一次只检查一个交互规模(Bailey和Gatrell 1995)。 这些技术最常见的是在短距离内检测聚类。计算能力的提高使得能够进行检查所有间距。 Ripleyrsquo;s K function可以在一定距离范围内计算并用于识别发生聚类的比例(Ripley 1976)。 估计量被定义为
其中R是研究区域的大小。 权重矩阵是二进制的值等于1当点i和j在距离d内时,否则为零。 一个标准化简化解释的措施如
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[27137],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您可能感兴趣的文章
- 饮用水微生物群:一个全面的时空研究,以监测巴黎供水系统的水质外文翻译资料
- 步进电机控制和摩擦模型对复杂机械系统精确定位的影响外文翻译资料
- 具有温湿度控制的开式阴极PEM燃料电池性能的提升外文翻译资料
- 警报定时系统对驾驶员行为的影响:调查驾驶员信任的差异以及根据警报定时对警报的响应外文翻译资料
- 门禁系统的零知识认证解决方案外文翻译资料
- 车辆废气及室外环境中悬浮微粒中有机磷的含量—-个案研究外文翻译资料
- ZigBee协议对城市风力涡轮机的无线监控: 支持应用软件和传感器模块外文翻译资料
- ZigBee系统在医疗保健中提供位置信息和传感器数据传输的方案外文翻译资料
- 基于PLC的模糊控制器在污水处理系统中的应用外文翻译资料
- 光伏并联最大功率点跟踪系统独立应用程序外文翻译资料
