论文题名: | 基于Hadoop的动车组故障数据关联规则挖掘研究与实现 |
关键词: | 动车组;故障诊断;数据挖掘;分布式计算框架 |
摘要: | 随着我国高速铁路的建设和发展,经过近十年的运营,已积累了海量的高速动车组运行状况数据,并以TB数量级增长。如何利用动车组的海量故障数据进行分析,并进一步指导动车组的维修和维护工作,对动车组的故障诊断具有重要意义。面对高速铁路动车组运行状况数据所呈现出的多样化,容量大、高度复杂,速度快等特点,传统的数据挖掘算法已不能有效处理,其不足主要反映在耗时长、效率低、实时性差,难以满足目前动车组故障应急处理应用的需求。本论文将探索基于Hadoop的数据分析技术和方法,并应用于动车组故障诊断分析。 本论文给出了基于分布式计算框架Hadoop的动车组故障诊断大数据解决方案,并通过将目前流行的基于Hadoop的关联规则挖掘算法Apriori算法进行优化,为提高动车组故障数据关联规则挖掘效率提供了有效方法,并在实际应用中得到了验证。 本论文的工作有以下几方面: (1)在分析了MapReduce分布式计算框架、分布式文件系统HDFS、数据仓库Hive等Hadoop核心技术的基础上,给出了基于Hadoop的动车组故障分析大数据解决方案。搭建了Hadoop集群环境,并对动车组故障数据集进行数据清洗。 (2)分析并实现了基于Hadoop的Apriori并行算法优化方案,提出了一种基于MapReduce迭代计算的改进算法MRAprioriT,并改进了集群的负载均衡。实验表明,改进算法比原始算法速度提高约36%,可满足动车组故障诊断实时性要求。 (3)将改进后的算法MRAprioriT应用于实验室的动车组故障真实数据场景下,实现了基于Hadoop的动车组故障数据关联规则挖掘系统。 论文所设计的动车组数据挖掘系统满足了特定的要求,具有较好的并发挖掘性能,提高了动车组故障数据分析的效率。 |
作者: | 胡辉 |
专业: | 计算机科学与技术 |
导师: | 张春 |
授予学位: | 硕士 |
授予学位单位: | 北京交通大学 |
学位年度: | 2015 |
正文语种: | 中文 |