当前位置: 首页> 学位论文 >详情
原文传递 关联规则算法研究及其在铁路隧道安全管理中的应用
论文题名: 关联规则算法研究及其在铁路隧道安全管理中的应用
关键词: 数据挖掘;关联规则;频繁项集;FP-tree;隧道病害;铁路隧道;安全管理
摘要: 数据挖掘技术是伴随信息量的迅速增长而诞生的,如何满足人们对知识与信息的渴求,以便快速地获取知识以及应用于决策领域,已经成为当前信息处理中的热门课题之一。 数据挖掘的方法很多,其中关联规则挖掘是一种主要的也是用途最广的数据挖掘方法,关联规则概念最早是由在IBM工作的Rakesh Agrawal博士等于1993年提出的,用于刻画事务数据库中各交易项目之间的关系,即频繁关系,自此,对关联规则的研究已有10余年时间并取得了很多成果,但还有很多问题亟待解决。本论文对此作了详细介绍,并对关联规则挖掘理论特别是关联规则挖掘算法进行了深入研究,取得了一定的研究成果。 文章首先介绍了数据挖掘的内涵、过程和一些方法,并简介了国内外目前的研究现状。关联规则方法是被实践(沃尔玛)证明了的一种非常有用的数据挖掘方法。关联规则的主要任务就是获得频繁项集,获得频繁项集的经典算法是Apriori算法和FP-growth算法,从算法的数据结构看这两种算法分别是基于数组和基于树的;文章还介绍并分析了Apriori算法的几种改进算法AprioriTid和AprioriHash等,同时还介绍并分析了FP-growth算法的改进算法PFP-growth。在总结了这些算法的特性后,作者提出了基于数组的AprioriN算法,此算法通过编码的方式把对数据库的操作转化到对内存的操作上,虽然此算法对处理机的内存要求较高,但大大提高了算法的效率;同时还提出了基于FP-tree的高性能关联规则挖掘算法FP-growthN算法,可以通过增加一个额外的数据结构加快项集的遍历速度,在第二遍扫描数据库时,建立基本FP-tree(T<,φ>)的同时生成一个矩阵A<,φ>,这个矩阵用来保存频繁2~项集。 我国的铁路隧道多数存在病害,以往大量历史病害数据没能为治理和防治工作提供有效的决策支持,而数据挖掘的关联规则方法可以通过挖掘历史数据为隧道病害防治和治理提供有效指导。由于作者提出的新算法FP-growthN特别适合那些数据量很大但数据项很稀疏的数据挖掘,文章将这种新算法应用于挖掘铁路隧道各病害的关联,通过对成都铁路局掌握的2005年的2787条隧道病害数据的343条重点隧道有效病害数据的关联分析,找出了各隧道病害之间隐藏着的关系,对铁路部门制定检测标准和防治隧道病害有一定的指导作用。文章最后通过结合关联规则挖掘方法介绍了一个隧道安全管理的决策支持项目,指出了数据挖掘方法在此项目中的意义。本文最后对研究工作进行了总结,提出了今后进一步的研究思路。
作者: 苏晓军
专业: 系统理论
导师: 徐维祥
授予学位: 硕士
授予学位单位: 北京交通大学
学位年度: 2006
正文语种: 中文
检索历史
应用推荐