详情

当前位置：首页> 学位论文 >详情

原文传递基于Hadoop的动车组故障数据关联规则挖掘研究与实现

论文题名：	基于Hadoop的动车组故障数据关联规则挖掘研究与实现
关键词：	动车组;故障诊断;数据挖掘;分布式计算框架
摘要：	随着我国高速铁路的建设和发展，经过近十年的运营，已积累了海量的高速动车组运行状况数据，并以TB数量级增长。如何利用动车组的海量故障数据进行分析，并进一步指导动车组的维修和维护工作，对动车组的故障诊断具有重要意义。面对高速铁路动车组运行状况数据所呈现出的多样化，容量大、高度复杂，速度快等特点，传统的数据挖掘算法已不能有效处理，其不足主要反映在耗时长、效率低、实时性差，难以满足目前动车组故障应急处理应用的需求。本论文将探索基于Hadoop的数据分析技术和方法，并应用于动车组故障诊断分析。　　本论文给出了基于分布式计算框架Hadoop的动车组故障诊断大数据解决方案，并通过将目前流行的基于Hadoop的关联规则挖掘算法Apriori算法进行优化，为提高动车组故障数据关联规则挖掘效率提供了有效方法，并在实际应用中得到了验证。　　本论文的工作有以下几方面: 　　(1)在分析了MapReduce分布式计算框架、分布式文件系统HDFS、数据仓库Hive等Hadoop核心技术的基础上，给出了基于Hadoop的动车组故障分析大数据解决方案。搭建了Hadoop集群环境，并对动车组故障数据集进行数据清洗。　　(2)分析并实现了基于Hadoop的Apriori并行算法优化方案，提出了一种基于MapReduce迭代计算的改进算法MRAprioriT，并改进了集群的负载均衡。实验表明，改进算法比原始算法速度提高约36％，可满足动车组故障诊断实时性要求。　　(3)将改进后的算法MRAprioriT应用于实验室的动车组故障真实数据场景下，实现了基于Hadoop的动车组故障数据关联规则挖掘系统。　　论文所设计的动车组数据挖掘系统满足了特定的要求，具有较好的并发挖掘性能，提高了动车组故障数据分析的效率。
作者：	胡辉
专业：	计算机科学与技术
导师：	张春
授予学位：	硕士
授予学位单位：	北京交通大学
学位年度：	2015
正文语种：	中文

相关文献

检索历史

应用推荐