论文题名: | 基于Hadoop的桥梁监测数据孤立点挖掘研究 |
关键词: | 桥梁监测;Hadoop平台;孤立点挖掘;k-均值聚类划分;k-近邻孤立点 |
摘要: | 桥梁是公路交通的重要组成部分,保证桥梁的运营安全极为重要。桥梁健康监测是一种通用的管理办法,监测数据处理是其中的一个核心内容。随着时间的推移,桥梁监测系统会累积越来越多的数据,而传统的数据处理技术在面对日益增长的数据存储与处理时压力越来越大。Hadoop是一种流行的大数据处理平台,它以HDFS分布式文件存储系统及MapReduce计算框架为核心,Hive、Sqoop等工具为枝干,形成了一个完整的大数据处理生态系统,使用Hadoop处理大量桥梁监测数据,具有理论意义及现实价值。数据挖掘是常用的一种数据处理手段,孤立点挖掘是其中的热门研究之一,目前在许多行业与领域如网络入侵检测、天气预报等都有所应用,而在桥梁监测领域,孤立点数据的挖掘研究还没有得到足够重视。本文主要研究基于Hadoop的桥梁监测数据孤立点挖掘方案,研究内容体现在以下几个方面: 第一,针对K-近邻孤立点算法开销大的缺点,结合划分思想、聚类思想及最小限界矩阵理论进行了改进,提出一种基于k-均值聚类划分的k-近邻孤立点算法(KMKNN)。该算法首先对数据集进行均值聚类,以聚类结果作为划分依据把数据集分成不同区域,判断每个区域是否包含孤立点,对不存在孤立点的区域进行剪枝处理,最后对包含孤立点的候选区域中的数据进行k-近邻计算,得到孤立点。实验表明,改进算法相比原始K-近邻算法提高了运算效率。 第二,KMKNN算法的缺点在于对数据集进行K-均值聚类时,需要给定聚类数目且随机选取初始聚类中心,得到的聚类结果精度不高,使得最终得到的孤立点不准确。因此,对KMKNN算法进行改进,使用Canopy聚类计算初始聚类数目,使用最大最小距离算法计算初始聚类中心,提出一种基于Canopy与最大最小距离算法的均值聚类划分k-近邻算法(CMM-KMKNN)。实验表明,改进算法提高了聚类精度及孤立点精度。 第三,由于KMKNN及CMM-KMKNN算法需要对数据进行大量迭代计算操作,算法开销大,因此搭建了一个Hadoop集群实验环境,对KMKNN与CMM-KMKNN算法实现Hadoop并行化。利用并行化后的KMKNN及CMM-KMKNN算法进行桥梁数据孤立点挖掘。实验表明,并行算法提高了数据处理速度,得到的孤立点数据准确。 |
作者: | 谭京京 |
专业: | 软件工程 |
导师: | 曹建秋 |
授予学位: | 硕士 |
授予学位单位: | 重庆交通大学 |
学位年度: | 2016 |
正文语种: | 中文 |