论文题名: | 基于大数据聚类挖掘的铁路工程地质条件评价模型研究 |
关键词: | 大数据聚类挖掘;铁路工程地质条件评价;大数据处理;地质灾害风险评估 |
摘要: | 川藏铁路是我国“十三五”规划中非常重要的建设项目,它的建设受到各族同胞的广泛关注。在铁路工程的设计选线、建设施工以及运营阶段都需要对铁路工程沿线地质条件进行勘察、分析并评价,以确保工程安全。开展基于大数据聚类挖掘的铁路工程地质条件评价对提高评价结果高效性、客观性和全面性具有重要的促进作用。 铁路工程地质条件传统的评价方式存在主观性强、评价效率不高以及评价结果不直观等缺点。针对以上局限,本文提出一种以地质灾害风险性为依据的铁路工程地质条件评价体系,使用相关地质灾害影响因素进行大数据挖掘建立评价模型,并进行大数据可视化展示,具体工作如下: 1.使用爬虫、HttpRequest等数据采集技术,对地质灾害风险影响因素数据进行采集,并进行数据预处理。同时研究并设计搭建基于Hadoop+Spark框架的大数据处理平台,提供高效的数据存取性能,并为大数据分析与挖掘提供高效计算性能。实现了多源异构大数据的高效准确自动化采集、预处理、存储以及计算。 2.以地质灾害风险为依据,对铁路工程地质条件进行大数据分析,分析铁路工程地质条件与各影响因素之间的相关性,为后续的大数据挖掘提供理论支持。 3.研究并实现基于随机森林的特征属性选择方法,使用随机森林算法对原始训练集进行分类模型的建立。将分类模型最优化,并输出各特征属性权重值,结合权重值以及大数据分析得出的结论,完成对铁路工程地质条件评价模型训练集特征属性的选择。 4.提出了差异度权值密度的概念,并将其引入到K-means聚类挖掘算法的初始聚类中心选择之中,提出了改进算法——MDDK-means。该算法克服了K-means算法初始聚类中心选择的随机性,提高了聚类的准确性以及执行的效率。使用改进算法与传统K-means算法以及基于密度的K-means算法进行对比实验,结果证明本文提出的改进算法具有更高的聚类准确性以及执行效率。 5.提出了基于MDDK-means算法的铁路工程地质条件评价模型。该模型以铁路沿线区域的地质灾害风险影响因素数据进行区域地质灾害风险性评估,以此为依据对该区域的铁路工程质条件进行评价,并将该模型于川藏铁路进行应用实现。 |
作者: | 工程硕士 |
专业: | 软件工程 |
导师: | 陆鑫 |
授予学位: | 硕士 |
授予学位单位: | 电子科技大学 |
学位年度: | 2021 |