养生 装修 购物 美食 感冒 便秘 营销 加盟 小吃 火锅 管理 创业 搭配 减肥 培训 旅游

arcgis中分组分析的工作原理分析

时间:2024-10-24 09:26:32

当我们观察周围的世界时,我们会很自然地对愕漓淤说所看到的事物进行组织、分组、区别和划分,以便帮助我们更好地劲忧商偌了解周围的一切;这类心理分类过程是学习和理解的基础。同样,为了帮助您了解以及更好地理解数据,您可以使用分组分析工具。它会执行一个分类过程来查找数据中存在的自然聚类。给定要创建的组数,它将寻找一个能够使每个组中的所有要素都尽可能相似但各个组之间尽可能不同的解。要素相似性是基于您为分析字段参数指定的一组特性,同时还可以包括空间属性或空间-时间属性。当指定了空间或空间-时间空间约束时,算法将采用连通图(最小跨度树)来查找自然分组。当指定了NO_SPATIAL_CONSTRAINT时,分组分析工具使用K均值算法。虽然存在数百个类似这样的聚类分析算法,但它们都被归类为NP难题。这意味着可确保某个解能够完美地实现组内相似性和组间差异最大化的唯一方法就是对要分组的要素的每一种可能组合都进行尝试。虽然这对于少量的要素是可行的,但问题很快会变得非常棘手。不但确保找到最佳解非常困难,而且尝试找到一种最适合所有可能数据情景的分组算法也不现实。各个组包含的形状、大小和密度各不相同;属性数据可能包括各种范围、对称性、连续性和测量单位。这就是过去50年来开发了如此众多不同聚类分析算法的原因。因此,最适合将分组分析视为一种可帮助您更好地了解数据基本结构的探索性工具。

工具/原料

arcgis

电脑

可能的应用

1、应用此工具的一些方法如下:假设您拥有来自所在州周围农场的沙门氏菌样本,以及包括类型/类别、位置和日期/时间在内的属性。为了更好地了解细菌如何传播和扩散,您可以使用分组分析工具将样本划分为各个“爆发”。您可能决定使用空间-时间约束,因为同一次爆发的样本会在空间和时间上会非常接近,而且也会与相同类型/类别的细菌关联。确定分组之后,可以使用其他空间模式分析工具,比如标准差椭圆、平均中心或近邻来分析每一次爆发。

2、如果您收集了有关动物观察方面的数据,以便更好地了解它们的领地,分组分析工具可能很有帮助。例如,了解鲑鱼在不同生命阶段的聚集地点和时间,可以帮助您规划保护区,以帮助确保成功繁育。作为一名农学家,您可能想将研究领域内的不同土壤进行分类。对通过一系列样本发现的土壤特征使用分组分析可以帮助识别出明显的、空间上相邻的土壤类型的聚类。按购买方式、人口统计特征和/或旅行方式对客户进行分组,可以帮助您为公司产品制订有效的营销策略。

3、城市规则师常常需要将各个城市划分成不同的邻域,以便有效地定位公共设施、促进地方能动性和提高社区参与度。对城市街区的物理和人口统计特征使用分组分析,可以帮助规划师确定具有相似物理和人口统计特征并且在空间上相邻的城市区域。每当对聚合的数据进行分析时,生态谬误都是一个众所周知的统计推断问题。通常,用于分析的聚合方案对我们想要分析的内容没有任何关系。例如,人口普查数据是根据人口分布而聚合,而人口分布情况可能不是用来进行火灾分析的最佳选择。针对与目前分析问题准确相关的一组属性,将可能的最小聚合单位划分成同质区域,是降低聚合偏差和避免生态谬误的一种有效方法。

输入

1、此工具将获取点、折线或面输入要素、唯一ID字段、输出要素类的路径、一个或多个分析字段、表示所要创建的组数的整数值以及应在分组算法中应用的空间约束的类型(如果有)。另外,还有许多可选的参数,包括允许您创建PDF输出报表文件的参数。

2、分析字段选择反映比率、间隔或序数测量系统的数值亨蚂擤缚字段。虽然标称数据可以使用哑元(二进制)变量进行表示,但它们通常不咤胸剖玳像其他数值变量类型一样起作用。例如,您可以创建一个名为Rural的变量,并向每个要素(如每个人口普查区)分配1(如果大部分是乡村)和0(如果大部分是城市)。但是,如果要与分组分析结合使用,那么此变量更好的表示方法是,使用与每个要素相关的乡村面积的数量或比例来表示。您应该选择您认为可以将一组要素与另一组要素区别开来的变量。例如,假设您想要按学生在标准化成绩测试中的成绩对学区进行分组。您可以选择各种分析字段,如整体测试得分、数学和阅读等特定科目的成绩、满足一些最低考试得分阈值的学生比例等等。当运行分组分析工具时,会为每个变量计算R2值。例如,在下面的汇总中,根据学生测试得分、该地区未上完中学的成人比例、每个学生的开支以及学生与教师的平均比率,来对学区进行分组。请注意,TestScores变量具有最高的R2值。这表明此变量能够最有效地将学区分组。R2值反映在分组流程之后原始TestScores数据中的变化的保留程度,因此,特定变量的R2值越大,变量越能更好地对要素进行区分。

arcgis中分组分析的工作原理分析

3、组数有时,您会知道最适合于您的问题的组数。例如,如果您有五位销售经理,并且要为每一位经理指定自己的相邻区域,那么您可以为组数参数使用5。但是,在许多情况下,对于选择具体组数您没有任何标准;而只是希望得到一个数,这个数能够最恰当地对要素相似性和差异性进行区分。为帮助您解决这种情形,您可以选中评估最佳组数参数,然后让分组分析工具评估将要素分为4和多达15个组时的有效性。分组有效性通过Calinski-Harabasz伪F统计量来测量,它是一个反映组内相似性和组间差异性的比率。

arcgis中分组分析的工作原理分析

arcgis中分组分析的工作原理分析

4、空间约束如果您希望生成的分组在空间上邻近,可指定空间约束。可以启用面邻接类的CONTIGUITY选项,来指示仅当要素与组中的另一成员共享某条边(CONTIGUITY_EDGES_ONLY)或共享某条边或某个折点(CONTIGUITY_EDGES_CORNERS)时,才表示这些要素属于同一个组。但是,如果数据集包括不连续面或根本没有相邻邻域的面的聚类,则面邻接选项并不是很好的选择:

arcgis中分组分析的工作原理分析

5、DELAUNAY_TRIANGULATIO鲍伊酷雪N和K_NEAREST_NEIGHBORS选项都适合点或面要素;这些选项用于指示,仅当某个要素至少有一个其他组成员是埠们萁猕自然邻域(DelaunayTriangulation)或“K最近邻”时,该要素才能包括在组中。例如,如果选择K_NEAREST_NEIGHBORS并为相邻要素的数目参数输入12,则组中每一个要素都将处于组中至少另外一个要素的12个最近的相邻要素范围内。DELAUNAY_TRIANGULATION选项不得用于具有重合要素的数据集。另外,由于Delaunay三角测量方法会将要素转换为泰森面来确定邻域关系,特别是与面要素的邻域关系,有时是与数据集中外围要素的邻域关系,因此使用此选项所得的结果可能不会始终与您的预期相符。在下图中,请注意其中一些分组的原始面并不连续;但是,当它们转换为泰森面时,所有分组的要素事实上确实共享了一条边:

arcgis中分组分析的工作原理分析

arcgis中分组分析的工作原理分析

6、对于许多分析,施加空间或空间-时间约束既不必要,也没有什么帮助作用。例如,假设您想按犯罪者的属性(身高、年龄、犯罪严重程度等等)对犯罪事件进行分组。虽然同一个人所犯的罪行可能往往是邻近的,但您并不可能找到某特定区域中的所有犯罪都是同一个人所为。对于这种类型的分析,您应为空间约束参数选择NO_SPATIAL_CONSTRAINT。但是,您可能选择在分析字段列表中包括一些空间变量(如与银行相邻),以便捕获您正分析的犯罪的某些空间特点。

K均值

1、当为空间约束参数选择了NO_SPATIA雉搽妤粲L_CONSTRAINT时,将使用K均值算法进行分组。“K均值”算法的目标是对要素进行划分,从而使所有组的每棒瀹跏癞一个组中要素之间的差异最小化。由于该算法属于NP难题,因此将采用启发式贪婪算法对要素进行分组。贪婪算法始终收敛于局部最小值,但并不总是能够找到全局(最佳)最小值。“K均值”算法首先确定用于增长每个组的种子要素。因此,种子数始终与组数相匹配。第一个种子是随机选择的。但是,虽然采用的是随机分量,但选择剩余种子时会应用一个权重,该权重将有利于选择与现有的一组种子要素最远的后续种子(这部分算法称为K均值++)。由于在为初始化方法选择FIND_SEED_LOCATIONS或USE_RANDOM_SEEDS时将使用随机分量查找种子要素,因此每次运行此工具所获得的分组结果可能都会有所不同。确定种子要素后,将向最近的种子要素(在数据空间中最近)分配所有要素。对于要素的每个聚类,将计算一个均值数据中心,并将每个要素重新分配给最近的中心。计算每个组的均值数据中心并随后向最近的中心重新分配要素这一过程将会一直继续,直至组成员关系稳定为止(最大迭代次数为100)。

2、最小跨度树当指定空间约束以将组成员资格限制为相连或相邻要素时,工具首先会构造一个表示要素间邻域关系的连通图。连通图上的最小跨度树将汇总要素空间关系和要素数据相似性。要素将成为最小跨度树中通过权重边进行连接的节点。每个边的权重与其连接的对象的相似性成正比。构建最小跨度树后,树中的分支(边)将被剪除,从而生成两个最小跨度树。要剪除的边会被选择,以使生成的组中的差异最小化,同时避免(如果可能)单一化(组中只具有一个要素)。在每次迭代时,将通过这种剪除过程对其中一个最小跨度树进行分割,直至获得指定的组数。所采用的发布方法被称为SKATER(Spatial"K"lusterAnalysisbyTreeEdgeRemoval)。虽然在每次迭代时会选择可优化组相似性的分支进行剪除,但并不保证最终结果是最佳的。

3、输出分组分析工具会创建许多输出。所有这些输出(包括可选的PDF报表文件)均可从结果窗口进行访问。如果禁用后台处理,结果还将被写入进度对话框。这些消息(如下所示)汇总了可选PDF报表(下面会进行介绍)中显示的信息。

arcgis中分组分析的工作原理分析

arcgis中分组分析的工作原理分析

4、分组分析工具的默认输出是一个新的输出要素类,它包含分析中使用的字段,以及一个名为SS_GROUP的用于标识每个要素所属的组的新整型字段。此输出要素类会添加到内容列表中,并会向SS_GROUP字段应用一种独特的颜色渲染方案。空心渲染表示要素不能添加到任何组,通常是因为它们没有相邻要素。如果为空间约束指定NO_SPATIAL_CONSTRAINT,则将向输出要素类添加一个附加字段SS_SEED,以指示进行分组时所使用的是哪些种子要素。

arcgis中分组分析的工作原理分析

© 一点知识