当前位置: 首页> 学位论文 >详情
原文传递 基于Hadoop的动车组故障数据关联规则挖掘研究与实现
论文题名: 基于Hadoop的动车组故障数据关联规则挖掘研究与实现
关键词: 动车组;故障诊断;数据挖掘;分布式计算框架
摘要: 随着我国高速铁路的建设和发展,经过近十年的运营,已积累了海量的高速动车组运行状况数据,并以TB数量级增长。如何利用动车组的海量故障数据进行分析,并进一步指导动车组的维修和维护工作,对动车组的故障诊断具有重要意义。面对高速铁路动车组运行状况数据所呈现出的多样化,容量大、高度复杂,速度快等特点,传统的数据挖掘算法已不能有效处理,其不足主要反映在耗时长、效率低、实时性差,难以满足目前动车组故障应急处理应用的需求。本论文将探索基于Hadoop的数据分析技术和方法,并应用于动车组故障诊断分析。
  本论文给出了基于分布式计算框架Hadoop的动车组故障诊断大数据解决方案,并通过将目前流行的基于Hadoop的关联规则挖掘算法Apriori算法进行优化,为提高动车组故障数据关联规则挖掘效率提供了有效方法,并在实际应用中得到了验证。
  本论文的工作有以下几方面:
  (1)在分析了MapReduce分布式计算框架、分布式文件系统HDFS、数据仓库Hive等Hadoop核心技术的基础上,给出了基于Hadoop的动车组故障分析大数据解决方案。搭建了Hadoop集群环境,并对动车组故障数据集进行数据清洗。
  (2)分析并实现了基于Hadoop的Apriori并行算法优化方案,提出了一种基于MapReduce迭代计算的改进算法MRAprioriT,并改进了集群的负载均衡。实验表明,改进算法比原始算法速度提高约36%,可满足动车组故障诊断实时性要求。
  (3)将改进后的算法MRAprioriT应用于实验室的动车组故障真实数据场景下,实现了基于Hadoop的动车组故障数据关联规则挖掘系统。
  论文所设计的动车组数据挖掘系统满足了特定的要求,具有较好的并发挖掘性能,提高了动车组故障数据分析的效率。
作者: 胡辉
专业: 计算机科学与技术
导师: 张春
授予学位: 硕士
授予学位单位: 北京交通大学
学位年度: 2015
正文语种: 中文
检索历史
应用推荐