摘要: |
信息社会对海量数据的处理能力提出了更高的要求。数据挖掘技术伴随着这种需求应运而生,已成为信息技术研究的热点之一。而聚类挖掘是数据挖掘技术中被广泛采用的技术之一。
本文主要对模糊聚类算法FCM进行了改进:结合竞争聚类算法CA、健壮性算法NC和关系型聚类算法FRC,提出了新的目标函数,并借鉴以上几种算法的推导方法,推导出隶属度的迭代公式。该算法具有以下特点:第一,通过竞争因子,使大量的初始聚类逐渐退化到最佳数目的聚类,可以解决传统算法由于缺乏先验知识而产生的聚类数目不合理的问题;第二,通过引入噪声类项,使得算法对孤立点有良好的适应性,从而更加健壮;第三,在目标函数中直接引入相异度函数,使得算法可以直接适用于非欧几里德距离的关系数据。此外,在研究基于划分的聚类算法的基础上,对k-均值算法进行改进,提出PKM算法,通过计算机仿真验证了算法的优越性。
结合隧道病害检测数据的特点,提出了从预处理到评价的有效方法。首先,对数据进行清洗,采用离散化和归一化方法对数据进行转换,并给出数据的集成方法;随后,针对预处理后的数据,应用病害数据相似(异)度的度量方法求解隧道之间的相异度;最后,采用改进的模糊聚类算法以及病害等级评价方法,对758条隧道的病害检测数据进行聚类分析,得出聚类结果,并将结果按照严重程度划分为四个等级,对应病害的四种健康状况。通过对病害状况的初步分析,提出若干意见和建议,为隧道病害预防和整治提供有用参考。
|