论文题名: | 动车组质量数据聚类分析研究与应用 |
关键词: | 动车组;机车零部件;质量检修;质量定位;数据聚类算法;大数据平台 |
摘要: | 动车组零部件质量的好坏将直接影响到动车组的运维效率、运营成本以及运行安全。近年来国内动车组多次出现质量问题,在追溯质量问题根源的时候,我国目前还是采用人工经验排查的方式,这种方式考验相关人员的素质与经验,并且缺少大数据研究作为技术支持,过于主观。另外,在质量问题预测以及有针对性的质量检修工作上,也还处在被动的阶段,没有相应的应对机制。行车状态数据是对零部件质量实时状态的一个真实反映,可以从中发现导致质量异常的因素,动车组数据管理日渐成熟,也已经积累了大量的零部件全生命周期数据,但由于数据量庞大,人工发现数据属性的潜在关系已不可能,因而基于大数据挖掘的质量影响因素的研究变得十分必要。 聚类分析将海量数据进行相似性划分,更利于用户进行分析。本文针对数据类型多样、维度高且数据量大等问题,选取Chameleon聚类算法作为研究算法,并对算法在动车组质量数据分析中存在的不足加以改进,提高聚类质量。由于数据量大,传统单机操作满足不了质量问题分析需求,所以对改进后的算法基于Hadoop平台进行并行化实现。本文的主要工作如下: (1)对已有的Chameleon聚类算法做改进,弥补了算法耗费时间以及子簇间密度相差较大影响聚类质量的问题,并通过实验证明改进后算法聚类质量高且速度快。 (2)针对动车组质量数据数量庞大的问题,采用Hadoop大数据平台,设计并实现改进后聚类算法的并行化,并通过实验证明基于MapReduce的并行化设计提高了算法效率,能够胜任大数据量的分析工作。 (3)对动车组质量数据进行聚类,分析并定位问题根源,另外提出基于履历数据建立质量追溯表,以此为依据实现质量预测工作。 本文基于统计学的原理,从海量数据中挖掘出数据属性潜在关系,用以辅助高铁行业实现质量问题的高效定位与预测,积极推进我国高铁技术的发展。 |
作者: | 栾海洋 |
专业: | 计算机技术 |
导师: | 张春 |
授予学位: | 硕士 |
授予学位单位: | 北京交通大学 |
学位年度: | 2016 |
正文语种: | 中文 |