论文题名: | 关联规则算法在铁路钢轨质量分析评价系统中的应用研究 |
关键词: | 关联规则;数据挖掘;频繁项集;铁路钢轨;质量评价 |
摘要: | 随着各行各业计算机信息化水平的提高,数据挖掘技术逐渐被广泛应用。由于数据信息的飞速增长,原有的数据挖掘方法已经很难满足业务的需求。传统的串行算法存在挖掘速率低,面对海量数据挖掘时不能及时快速响应的缺点。在数据规模不断增长的同时,我们所面对和掌握的数据结构越来越复杂且数据的维度也越来越高。面对这些快速增长的数据,传统的频繁项集挖掘算法需要不断的扫描数据库,因此会增加算法的时间复杂度和相应的执行效率,并行数据挖掘正是在这样的背景下出现。 关联规则算法作为数据挖掘中的一个重要的分支,其能够从数据对象集合中挖掘具有关联关系的数据项集,因此关联规则算法在各行业当中都具有广泛的应用。近年来,云计算平台Hadoop引起了越来越多研究者的关注,将传统的频繁项集挖掘相关算法进行并行化实现是一个重要的研究方向。在频繁项集挖掘过程中存在两个瓶颈,循环迭代次数过多和I/O负载过大的问题。而Hadoop平台继承了云计算的诸多优点,为大数据的分布式存储和并行计算提供了有效的策略,具有可用性高、成本低廉的特性,因此,用Hadoop可以缓解相应的压力。 尽管近年来国内外对基于关联规则的并行算法进行了深入广泛的研究,但是传统的Apriori算法依然存在扫描数据时会循环迭代扫描数据的问题,使得筛选候选集合的过程中存在性能优化问题。本文通过对MapReduce计算模型的工作原理、运行机制和容错机制进行研究学习,并结合关联规则生成算法的特点,改进了传统的并行算法并提出了基于MapReduce的关联规则算法的并行优化方案。此外,还对基于MapReduce的频繁项集挖掘算法进行了理论设计,并将改进算法运用在铁路钢轨质量分析评价行业。通过对传感器检测到的钢轨病害数据进行分析,生成其中的强关联规则。在MapReduce并行化处理过程中,将数据的分区矩阵Tk按照行切分存放,将计算负载遍布在集群的各个节点,减少每次迭代计算时向量移动矩阵并相乘的时间消耗。最后本文又对该算法进行了详细的分析总结与探讨。 |
作者: | 白庆春 |
专业: | 计算机技术 |
导师: | 朱付保 |
授予学位: | 硕士 |
授予学位单位: | 郑州轻工业学院 |
学位年度: | 2016 |
正文语种: | 中文 |