什么是聚类分析,聚类分析统计量有哪些?

1、使用“分层聚类”分析;2、选择聚类类别,SPSSAU默认聚为三类;3、结合树状图进行分析,分层聚类出来,具体聚成几个类别较好,需要结合树状图结果及实际数据情况进行分析对比 。

什么是聚类分析,聚类分析统计量有哪些?

文章插图
聚类分析统计量有哪些?
无论是R型聚类还是Q型聚类,关键是如何定义相似性 。即如何把相似性数量化 。聚类的第一步需要给出两个指标或两个样本间相似性度量的统计量 。


聚类分析中用来衡量样本个体之间属性相似程度的统计量以及指标变量之间属性相似度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系款 。


距离系数的定义有很多,如欧式距离、极端距离、绝对距离等 。
相似系数的定义也很多,如相关系数、列联系数等 。
什么是聚类分析?说说它在地理学中的应用?
聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类 。距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:其中Xik表示第i个样品的第k个指标的观测值,Xjk表示第j个样品的第k个指标的观测值,dij为第i个样品与第j个样品之间的欧氏距离 。若dij越小,那么第i与j两个样品之间的性质就越接近 。性质接近的样品就可以划为一类 。当确定了样品之间的距离之后,就要对样品进行分类 。分类的方法很多,本节只介绍系统聚类法,它是聚类分析中应用最广泛的一种方法 。首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止 。分类结果可以画成一张直观的聚类谱系图 。应用系统聚类法进行聚类分析的步骤如下:
①确定待分类的样品的指标;
②收集数据;
③对数据进行变换处理(如标准化或规格化);
④使各个样品自成一类,即n个样品一共有n类;
⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类;
⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止;
【什么是聚类分析,聚类分析统计量有哪些?】⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果 。