5) clustering analysis algorithm
聚类分析算法
1.
In order to mine production and security information from security supervising data and to ensure security and safety involved in production and decision-making,a clustering analysis algorithm for security supervising data based on a semantic description in coal mines is studied.
为了挖掘基于语义描述的煤矿安全监测数据中蕴含的生产安全信息,指导煤矿安全生产和决策,研究了基于语义描述的煤矿安全监测数据聚类分析算法。
补充资料:聚类分析
研究变量群分类的统计技术。又称 R型聚类分析。社会研究中,一个概念往往要通过一组指标(或变量)来测量。例如,研究婚姻中的择偶标准问题,往往通过一系列的问题或变量,如年龄、文化、专业、爱好、性情、身高、人品、气质、家庭背景等等,来研究人们择偶中的价值观。这些变量不是互不相关的,有些甚至高度相关。因此,可通过聚类分析把众多变量聚合为若干类。聚类分析适合于各种层次的变量。根据聚类的准则不同,聚类分析可分作距离法和相关系数法。
距离法 通过变量间的距离来度量聚类中的相似性。距离愈短,相似性愈佳,愈可合并为一类。在距离法中,变量被看作x 维空间的一个点,常用的欧氏距离是:
式中dij为变量xi和变量xj的距离;xik为第k个个案在变量xi上的观测值;xjk为第k个个案在变量xj上的观测值;x为个案数。
根据计算的距离dij,常采用谱系聚类法把变量间关系理顺成谱。它的基本思想是先把 P个变量各自看作一类,然后选择距离最小的合并为一新类;再计算新类和其他类的距离;再将距离最近的合并为新的一类,这样每次减少一类,直至所有变量成为一类为止。(见图)
相关系数法 通过变量间的相关系数来度量聚类中的相似性。相关系数不限于定距变量的积矩相关系数 r。如果是定类变量,可采用&λ系数或τ系数。根据相关系数作谱系聚类时,与距离法不同,它首先将相关系数最大的合并为一类,然后再逐步合并,直至所有变量成为一类的谱系图。
根据谱系聚类的结果,应划分为n类(或n组),一般用归类系数B来判断:
B应大于 1。也有的社会学家推荐B≥1.30作为分组的准则。
如果研究个案群的聚类,则称Q型聚类分析。这时只须把调查的x个个案,当作x个变量,分析方法与R型聚类分析完全相同。
参考书目
张尧庭、方开泰:《多元统计分析引论》,科学出版社,北京,1980。
距离法 通过变量间的距离来度量聚类中的相似性。距离愈短,相似性愈佳,愈可合并为一类。在距离法中,变量被看作x 维空间的一个点,常用的欧氏距离是:
式中dij为变量xi和变量xj的距离;xik为第k个个案在变量xi上的观测值;xjk为第k个个案在变量xj上的观测值;x为个案数。
根据计算的距离dij,常采用谱系聚类法把变量间关系理顺成谱。它的基本思想是先把 P个变量各自看作一类,然后选择距离最小的合并为一新类;再计算新类和其他类的距离;再将距离最近的合并为新的一类,这样每次减少一类,直至所有变量成为一类为止。(见图)
相关系数法 通过变量间的相关系数来度量聚类中的相似性。相关系数不限于定距变量的积矩相关系数 r。如果是定类变量,可采用&λ系数或τ系数。根据相关系数作谱系聚类时,与距离法不同,它首先将相关系数最大的合并为一类,然后再逐步合并,直至所有变量成为一类的谱系图。
根据谱系聚类的结果,应划分为n类(或n组),一般用归类系数B来判断:
B应大于 1。也有的社会学家推荐B≥1.30作为分组的准则。
如果研究个案群的聚类,则称Q型聚类分析。这时只须把调查的x个个案,当作x个变量,分析方法与R型聚类分析完全相同。
参考书目
张尧庭、方开泰:《多元统计分析引论》,科学出版社,北京,1980。
说明:补充资料仅用于学习参考,请勿用于其它任何用途。
参考词条